Glossário de terminologia técnica de Azure Databricks

A

lista de controle de acesso (ACL)

Uma lista de permissões anexadas ao espaço de trabalho, cluster, trabalho, tabela ou experimento. Uma ACL especifica quais usuários ou processos do sistema recebem acesso aos objetos e quais operações são permitidas nos ativos. Cada entrada em uma ACL típica especifica um assunto e uma operação. Consulte Listas de controle de acesso.

modo de acesso

Um recurso de segurança que determina quem pode usar um recurso de computação e os dados que eles podem acessar ao usar o recurso de computação. Cada recurso de computação no Azure Databricks tem um modo de acesso. Consulte Modos de acesso.

Transações ACID

Transações de banco de dados que são processadas de forma confiável. ACID significa atomicidade, consistência, isolamento, durabilidade. Consulte Práticas recomendadas para confiabilidade.

Agente Bricks

Funcionalidades do Azure Databricks que lhe permitem construir soluções de IA de alta qualidade.

inteligência artificial (IA)

A capacidade de um computador imitar o comportamento humano inteligente. Veja IA e aprendizado de máquina no Databricks.

Agente de IA

Uma aplicação com capacidades de raciocínio complexas que lhe permite criar o seu próprio plano e executar a tarefa de acordo com as ferramentas ao seu dispor. Ver padrões de design de sistemas de agentes.

Funções de IA

As funções SQL incorporadas que permitem aplicar IA diretamente nos seus dados a partir do SQL no Azure Databricks. Veja Enriquecer dados usando Funções de IA.

Gateway de IA

A solução Azure Databricks para governar e monitorizar endpoints LLM, agentes de programação e endpoints de disponibilização de modelos. Use o AI Gateway para analisar o uso, configurar permissões e gerir a capacidade entre fornecedores. Ver AI Gateway.

Parque infantil AI

Uma funcionalidade do Azure Databricks onde os utilizadores podem interagir, testar e comparar modelos de IA generativa servidos no seu espaço de trabalho do Azure Databricks. Veja Converse com LLMs e crie protótipos de aplicativos de IA generativa usando o AI Playground.

Deteção de anomalias

Técnicas e ferramentas usadas para identificar padrões incomuns que não estão de acordo com o comportamento esperado em conjuntos de dados. O Azure Databricks facilita a deteção de anomalias através das suas capacidades de aprendizagem automática e processamento de dados.

Apache Iceberg

Um formato de tabela open-source para cargas de trabalho analíticas que suporta evolução de esquemas, viagem no tempo e particionamento oculto. O Azure Databricks suporta tabelas Iceberg geridas pelo Unity Catalog e por catálogos estrangeiros. Veja O que é o Apache Iceberg no Azure Databricks?.

Apache Spark

Um sistema de computação distribuído de código aberto usado para cargas de trabalho de big data. Consulte Visão geral do Apache Spark.

rede neural artificial (RNA)

Um sistema de computação padronizado após o funcionamento dos neurônios no cérebro humano.

asset

Uma entidade num espaço de trabalho do Azure Databricks (por exemplo, um objeto ou um ficheiro).

log de auditoria

Um registo das atividades e ações dos utilizadores no ambiente Azure Databricks, crucial para segurança, conformidade e monitorização operacional. Consulte Referência do registo de diagnóstico.

Carregador Automático

Um recurso de ingestão de dados que processa de forma incremental e eficiente novos arquivos de dados à medida que chegam ao armazenamento em nuvem sem qualquer configuração adicional. Consulte O que é Auto Loader?.

AutoML

Uma funcionalidade do Azure Databricks que simplifica o processo de aplicação de aprendizagem automática aos seus conjuntos de dados, encontrando automaticamente o melhor algoritmo e configuração de hiperparâmetros para si. Consulte O que é AutoML?.

linhagem de dados automatizada

O processo de rastrear e visualizar automaticamente o fluxo de dados desde sua origem através de várias transformações até sua forma final, essencial para depuração, conformidade e compreensão de dependências de dados. O Azure Databricks facilita isto através de integrações com ferramentas de linhagem de dados.

dimensionamento automático, horizontal

Adicionar ou remover executores com base no número de tarefas que aguardam agendamento. Isso acontece dinamicamente durante uma única atualização.

dimensionamento automático, vertical

Aumentar ou diminuir o tamanho de uma máquina (driver ou executor) com base na pressão da memória (ou ausência dela). Isso acontece apenas no início de uma nova atualização.

Azure Databricks

Uma versão do Databricks otimizada para a plataforma cloud Microsoft Azure.

B

processamento em lote

Um método de processamento de dados que permite definir instruções explícitas para processar uma quantidade fixa de dados estáticos e inalteráveis como uma única operação. Azure Databricks utiliza Spark SQL ou DataFrames. Consulte Conectores padrão no Lakeflow Connect.

Deteção e mitigação de viés

O processo de identificar e abordar vieses em dados e modelos de aprendizado de máquina para garantir equidade e precisão. O Databricks oferece ferramentas e integrações para ajudar a detetar e mitigar vieses. Consulte Monitorar equidade e parcialidade para modelos de classificação.

inteligência de negócios (BI)

As estratégias e tecnologias utilizadas pelas empresas para a análise de dados e gestão da informação empresarial.

C

catálogo (Catálogo Unity)

O primeiro nível do namespace de três níveis do Unity Catalog (catalog.schema.table-etc). Um catálogo é um contentor para esquemas, que por sua vez contêm tabelas, vistas, volumes, modelos e funções. Ver O que são os catálogos em Azure Databricks?.

Explorador de Catálogos

Uma funcionalidade do Azure Databricks que fornece uma interface para explorar e gerir dados, esquemas (bases de dados), tabelas, modelos, funções e outros ativos de IA. Você pode usá-lo para localizar objetos de dados e proprietários, entender as relações de dados entre tabelas e gerenciar permissões e compartilhamento. Consulte O que é o Catalog Explorer?.

instância filho

A instância filha é um clone com cópia em escrita da instância de banco de dados original. Pode ser criado a partir do momento específico atual ou de um momento específico histórico dentro do período de retenção. Ver Restaurar dados e viagem no tempo.

CICD ou CI/CD

As práticas combinadas de integração contínua (IC) e entrega contínua (CD). Ver CI/CD em Azure Databricks.

dados limpos

Dados que passaram por um processo de limpeza de dados, que é o processo de detetar e corrigir (ou remover) registros corrompidos ou imprecisos de um conjunto de registros, tabela ou banco de dados e refere-se à identificação de partes incompletas, incorretas, imprecisas ou irrelevantes dos dados e, em seguida, substituir, modificar ou excluir os dados sujos ou grosseiros.

Salas Limpas

Uma funcionalidade do Azure Databricks que utiliza Delta Sharing e computação serverless para proporcionar um ambiente seguro e protegido de privacidade, onde múltiplas partes podem partilhar dados empresariais sensíveis e colaborar sem acesso direto aos dados umas das outras. Com o Clean Rooms, os usuários de outras contas Databricks podem colaborar para gerar insights sobre projetos compartilhados, como campanhas publicitárias, decisões de investimento ou pesquisa e desenvolvimento, sem compartilhar o acesso a dados subjacentes confidenciais. Ver O que é Azure Databricks Clean Rooms?.

Provedor de plataforma de nuvem

Uma empresa que fornece uma plataforma de computação em nuvem. Por exemplo, Microsoft Azure, Amazon Web Services (AWS) e Google Cloud Platform (GCP).

cluster

Um recurso de computação sem servidor usado em notebooks, trabalhos e pipelines declarativos do Lakeflow Spark. O termo compute substituiu cluster em toda a interface Azure Databricks, mas ainda é usado na API Clusters e nos metadados.

compute

Refere-se aos recursos de computação, que são elementos de infraestrutura, seja hardware ou software, que permitem a resolução de problemas e a criação de soluções por meio do recebimento, análise e armazenamento de dados. Compute.

tubulação contínua

Um pipeline que atualiza continuamente todas as tabelas à medida que novos dados chegam na entrada, sem interrupção. Consulte Modo de pipeline por evento vs. contínuo.

D

gráfico acíclico dirigido (DAG)

Um método de representar as dependências entre tarefas em um fluxo de trabalho ou pipeline. Em um modelo de processamento DAG, as tarefas são representadas como nós em um gráfico acíclico direcionado, onde as bordas representam as dependências entre tarefas.

Catálogo de Dados

Uma ferramenta de gerenciamento de metadados para gerenciar fontes de dados, fornecendo informações sobre a estrutura, localização e uso dos dados. O Azure Databricks integra-se com catálogos de dados externos para uma gestão melhorada de metadados.

Governança de dados

A prática de gerenciar a disponibilidade, integridade, segurança e usabilidade dos dados, envolvendo políticas, procedimentos e tecnologias para garantir a qualidade e conformidade dos dados.

ingestão de dados

O processo de importar, transferir, carregar e processar dados de várias fontes para o Azure Databricks para armazenamento, análise e processamento.

Data Lake [en]

Um grande repositório de armazenamento que contém uma grande quantidade de dados brutos em seu formato nativo até que seja necessário.

Lakehouse de Dados

Um sistema de gestão de dados que combina os benefícios dos "data lakes" e "data warehouses". Um data lakehouse fornece recursos escaláveis de armazenamento e processamento para organizações modernas que desejam evitar sistemas isolados para processar diferentes cargas de trabalho, como aprendizado de máquina (ML) e business intelligence (BI). Um data lakehouse pode ajudar a estabelecer uma única fonte de verdade, eliminar custos redundantes e garantir a atualização dos dados. Consulte O que é um data lakehouse?.

Perfil de dados

Monitoriza as propriedades estatísticas e a qualidade dos dados em todas as tabelas da sua conta. Você também pode usá-lo para acompanhar o desempenho de modelos de aprendizado de máquina e pontos de serviço do modelo, monitorando tabelas de inferência que contêm entradas do modelo e previsões. Consulte Criação de perfil de dados.

pipeline de dados

Uma série de estágios em que os dados são gerados, coletados, processados e movidos para um destino. O Databricks facilita a criação e o gerenciamento de pipelines de dados complexos para processamento de dados em lote e em tempo real.

Privacidade de dados

A prática de proteger dados pessoais contra acesso, uso, divulgação ou roubo não autorizados. O Azure Databricks enfatiza funcionalidades robustas de privacidade e segurança de dados, incluindo encriptação de ponta a ponta, controlo de acesso baseado em funções e conformidade com os principais regulamentos de proteção de dados, para salvaguardar informações sensíveis e garantir a governação dos dados.

visualização de dados

Uma abordagem de gerenciamento de dados que permite que um aplicativo recupere e manipule dados sem exigir detalhes técnicos sobre os dados, como como eles são formatados ou onde estão fisicamente localizados. O Azure Databricks pode servir como parte de uma camada de virtualização de dados, proporcionando acesso e análise contínuos de dados entre fontes díspares.

armazenamento de dados

Refere-se à coleta e armazenamento de dados de várias fontes para que possam ser acessados rapidamente para insights e relatórios de negócios. A arquitetura lakehouse e o Databricks SQL trazem recursos de armazenamento de dados em nuvem para seus data lakes. Consulte Arquitetura de armazenamento de dados.

catálogo de banco de dados

Uma entidade de catálogo Unity Catalog que representa um banco de dados Postgres em uma instância. Isso é conceitualmente semelhante a um catálogo estrangeiro no Unity Catalog. Consulte Registrar seu banco de dados no Catálogo Unity.

instância do banco de dados

Uma instância de banco de dados gerencia recursos de armazenamento e computação e fornece os pontos de extremidade aos quais os usuários se conectam. Consulte O que é uma instância de banco de dados?.

Databricks

Uma plataforma de análise unificada e aberta para criar, implantar, compartilhar e manter dados, análises e soluções de IA de nível empresarial em escala. A Databricks Data Intelligence Platform integra-se com o armazenamento e a segurança na nuvem na sua conta na nuvem e gere e implementa a infraestrutura na nuvem em seu nome. Ver O que é Azure Databricks?.

Databricks IA/BI

Um produto de inteligência empresarial para fornecer compreensão da semântica dos seus dados, permitindo a análise de dados em modo de auto-serviço. A IA/BI é construída em um sistema de IA composto que extrai insights do ciclo de vida completo de seus dados na plataforma Databricks, incluindo pipelines de ETL, linhagem e outras consultas. Consulte Databricks AI/BI.

Recursos de IA do Databricks

O motor de inteligência de dados que alimenta a Plataforma Databricks. É um sistema de IA composto que combina o uso de modelos de IA, recuperação, classificação e sistemas de personalização para entender a semântica dos dados e padrões de uso da sua organização. Consulte Recursos auxiliares de IA do Databricks.

Aplicações Databricks

Uma funcionalidade Azure Databricks que permite aos programadores construir e implementar dados seguros e aplicações de IA diretamente na plataforma Azure Databricks, utilizando frameworks Python ou Node.js. As aplicações funcionam em computação serverless e integram-se com Unity Catalog, Databricks SQL e OAuth. Consulte Aplicativos Databricks.

Pacotes de Automação Declarativa

Uma ferramenta para facilitar a adoção das melhores práticas de engenharia de software, incluindo controle de fonte, revisão de código, testes e integração e entrega contínuas (CI/CD) para seus projetos de dados e IA. Os bundles permitem descrever recursos do Azure Databricks, como jobs, pipelines e notebooks, como ficheiros fonte. Veja o que são os Pacotes de Automação Declarativa?

Código Génio

Um programador colaborativo baseado em IA e um agente de suporte que o torna mais eficiente à medida que cria blocos de notas, consultas, painéis de controlo e ficheiros. Pode ajudar a responder rapidamente a perguntas gerando, otimizando, concluindo, explicando e corrigindo código e consultas. Ver Código Génio.

Databricks CLI

Uma interface de linha de comandos para o Azure Databricks que permite aos utilizadores gerir e automatizar espaços de trabalho do Databricks e implementar tarefas, notebooks e bibliotecas. Ver Databricks CLI.

Databricks Connect

Uma biblioteca cliente que permite aos programadores ligar os seus IDEs, notebooks e outras ferramentas favoritas ao Azure Databricks, calcular e executar código Spark remotamente. Consulte Databricks Connect.

Serviços de contêiner Databricks

Uma característica do Azure Databricks que permite especificar uma imagem Docker ao criar computação. Consulte Personalizar contêineres com o Databricks Container Service.

Mercado Databricks

Um fórum aberto para o intercâmbio de produtos de dados. Os fornecedores devem ter uma conta Azure Databricks, mas os destinatários podem ser qualquer pessoa. Os ativos do marketplace incluem conjuntos de dados, notebooks Azure Databricks, Azure Databricks Solution Accelerators e modelos de aprendizagem automática (IA). Os conjuntos de dados são normalmente disponibilizados como catálogos de dados tabulares, embora também sejam suportados dados não tabulares, sob a forma de volumes do Azure Databricks. Consulte O que é o Databricks Marketplace?.

Tempo de execução do Databricks

Um tempo de execução otimizado para análise de big data. A Databricks também oferece o Databricks Runtime para Machine Learning, que é otimizado para cargas de trabalho de machine learning. Consulte versões e compatibilidade das notas de lançamento do Databricks Runtime.

Databricks SQL (DBSQL)

O conjunto de serviços que traz funcionalidades de armazenamento de dados e desempenho para os seus data lakes existentes. O Databricks SQL suporta formatos abertos e ANSI SQL padrão. Um editor SQL integrado na plataforma e ferramentas de dashboarding permitem que os membros da equipa colaborem diretamente com outros utilizadores do Azure Databricks no espaço de trabalho. Consulte Data warehousing em Azure Databricks.

DBUs

Uma Unidade Databricks (DBU) é uma unidade normalizada de poder de processamento na plataforma Databricks Lakehouse usada para fins de medição e preços. O número de DBUs que uma carga de trabalho consome é determinado por métricas de processamento, que podem incluir os recursos de computação usados e a quantidade de dados processados. Veja os componentes Azure Databricks.

Sistema de Ficheiros Databricks (DBFS)

Um sistema de ficheiros distribuído montado num espaço de trabalho Azure Databricks e disponível no Azure Databricks compute. O Azure Databricks recomenda usar volumes do Unity Catalog em vez do DBFS para gerir o acesso a dados não tabulares. Consulte O que é DBFS?.

DataFrame

Uma estrutura de dados que organiza dados em uma tabela bidimensional de linhas e colunas, muito semelhante a uma planilha. Os DataFrames são uma das estruturas de dados mais comuns usadas na análise de dados moderna porque são uma maneira flexível e intuitiva de armazenar e trabalhar com dados. Consulte Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames.

dataset

Uma coleção estruturada de dados organizados e armazenados juntos para análise ou processamento. Os dados em um conjunto de dados normalmente são relacionados de alguma forma e retirados de uma única fonte ou destinados a um único projeto.

Lago Delta

Uma camada de armazenamento de código aberto que traz confiabilidade aos lagos de dados. O Delta Lake proporciona transações ACID, gestão escalável de metadados e unifica o processamento de dados de fluxos e lotes. Veja O que é Delta Lake em Azure Databricks?.

Pipelines

Uma estrutura declarativa para criar pipelines de processamento de dados confiáveis, sustentáveis e testáveis. Você define as transformações a serem executadas em seus dados e o Lakeflow Spark Declarative Pipelines gerencia a orquestração de tarefas, o gerenciamento de clusters, o monitoramento, a qualidade dos dados e o tratamento de erros. Veja Lakeflow Spark Declarative Pipelines.

Conjuntos de dados de pipelines

As tabelas de streaming, visualizações materializadas e visualizações mantidas como resultados de consultas declarativas.

Compartilhamento Delta

Permite-lhe partilhar dados e ativos de IA no Azure Databricks com utilizadores fora da sua organização, quer esses utilizadores usem ou não o Azure Databricks. Também disponível como projeto open-source para partilha de dados tabulares, a sua utilização no Azure Databricks adiciona a capacidade de partilhar dados não tabulares, não estruturados (volumes), modelos de IA, vistas, dados filtrados e cadernos. Consulte O que é Delta Sharing?.

Tabelas delta

O formato padrão de tabela de dados no Azure Databricks é uma funcionalidade do framework de dados open source Delta Lake. As tabelas Delta são normalmente usadas em data lakes, onde os dados são carregados via streaming ou em grandes lotes. Ver tabelas Azure Databricks.

E

Incorporação (substantivo)

Uma representação matemática do conteúdo semântico dos dados, como texto ou imagens, expressa como um vetor de números. Os embeddings são usados no Azure Databricks para pesquisa vetorial, geração aumentada por recuperação e outras aplicações de IA. Diferente do termo "embedding", no sentido de incorporar um dashboard numa interface. Consulte Mosaic AI Vetor Search.

ETL (Extrair, Transformar, Carregar)

Uma abordagem moderna à integração de dados que extrai dados de fontes, carrega-os no sistema de destino e, em seguida, transforma-os no sistema de destino. Consulte o Tutorial: Como construir um pipeline ETL com Lakeflow Spark Declarative Pipelines.

Tabela externa

Uma tabela registada no Unity Catalog onde os dados residem numa localização externa de armazenamento na cloud. O Unity Catalog gere metadados e controlo de acesso, mas o ciclo de vida dos dados é gerido fora do Azure Databricks. Consulte Trabalhar com tabelas externas.

F

Loja de recursos

Um repositório central para armazenar, gerenciar e fornecer recursos para modelos de aprendizado de máquina. Consulte Databricks Feature Store.

Ajuste fino

O processo de pegar num modelo de aprendizagem automática pré-treinado e treiná-lo ainda mais num conjunto de dados menor, específico de domínio, para otimizar o seu desempenho para uma aplicação específica. Consulte Treinar modelos de IA e ML.

flow

Um fluxo é um processo no Lakeflow Spark Declarative Pipelines que lê dados, os transforma e grava em um destino.

Tabela Externa

Uma tabela de apenas leitura no Unity Catalog cujos dados são geridos por um catálogo fora do Unity Catalog, como AWS Glue ou Snowflake. O Azure Databricks utiliza o Lakehouse Federation para recuperar metadados e ler a tabela a partir do armazenamento de objetos. Veja Trabalhar com tabelas estrangeiras.

Modelos de fundação

Grandes modelos de ML pré-treinados com a intenção de serem ajustados para tarefas mais específicas de compreensão e geração de linguagem. Consulte as APIs de modelo da Databricks Foundation.

G

Código Génio

Um parceiro autónomo de IA concebido especificamente para trabalho de dados no Azure Databricks. O Genie Code está profundamente integrado com o Unity Catalog, proporcionando consciência contextual das suas tabelas, colunas e linhagem para acelerar tarefas complexas de dados em vários passos. Ver Código Génio.

Espaço Genie

Uma funcionalidade de IA/BI do Azure Databricks que permite às equipas de negócio interagir com os seus dados usando linguagem natural. Especialistas em domínio configuram espaços Genie com conjuntos de dados, consultas de exemplo e diretrizes para que o Genie possa traduzir questões de negócio em consultas SQL. Consulte o que é um espaço Genie.

IA generativa

Um tipo de inteligência artificial focada na capacidade dos computadores de usar modelos para criar conteúdo como imagens, texto, código e dados sintéticos. As aplicações de IA generativa são construídas com base em modelos de IA generativa: grandes modelos de linguagem (LLMs) e modelos de base. Veja IA e aprendizado de máquina no Databricks.

diretórios Git

Um cliente Git visual integrado no espaço de trabalho do Azure Databricks que fornece controlo de versões, colaboração e capacidades CI/CD para cadernos e ficheiros. Anteriormente conhecido como Repos. Veja Azure Databricks repositórios Git.

I

Inferência

O processo de utilização de um modelo treinado de aprendizagem automática para gerar previsões ou saídas a partir de novos dados de entrada. O Azure Databricks suporta inferência em tempo real e em lote através do Mosaic AI Model Serving. Consulte Implantar modelos usando o Mosaic AI Model Serving.

Script de Init

Um script de shell que corre durante o arranque de um recurso de computação do Azure Databricks. Os scripts de init podem instalar pacotes, modificar configurações ou definir variáveis de ambiente. Consulte O que são scripts init?.

J

job

A unidade principal para agendar e orquestrar cargas de trabalho de produção no Azure Databricks. Os trabalhos consistem em uma ou mais tarefas. Veja Lakeflow Jobs.

L

Lakeflow Connect

Oferece conectores integrados para ingestão a partir de aplicações empresariais e bases de dados. O pipeline de ingestão resultante é governado pelo Unity Catalog e é alimentado por computação sem servidor e Lakeflow Spark Declarative Pipelines. Consulte Conectores gerenciados no Lakeflow Connect.

Federação Lakehouse

Uma plataforma de consulta federada para Azure Databricks. O termo federação de consultas descreve uma coleção de recursos que permitem que usuários e sistemas executem consultas em várias fontes de dados sem a necessidade de migrar todos os dados para um sistema unificado. O Azure Databricks utiliza o Unity Catalog para gerir a federação de consultas. Veja O que é Lakehouse Federation?.

Lakebase

Azure Databricks Lakebase é uma base de dados OLTP integrada com o seu Lakehouse. Um banco de dados de processamento de transações on-line (OLTP) é um tipo especializado de sistema de banco de dados projetado para lidar eficientemente com grandes volumes de dados transacionais em tempo real. O Lakebase permite-lhe criar uma base de dados OLTP no Azure Databricks e trazer cargas de trabalho OLTP para o seu Lakehouse.

Ver Lakebase.

Ponto final da Lakebase

Um endpoint Lakebase é o principal ponto de acesso à base de dados para a sua base de dados Lakebase Postgres. Cada endpoint é identificado por um ID único de endpoint e opera dentro de uma única região cloud. Um endpoint pode ser configurado como uma única instância de computação ou com alta disponibilidade, emparelhando uma instância primária de computação com uma ou mais instâncias secundárias para failover automático. Liga-se à sua base de dados através das cadeias de ligação do endpoint.

Ver Alta disponibilidade.

modelo de linguagem grande (LLM)

Um modelo de processamento de linguagem natural (NLP) projetado para tarefas como responder perguntas abertas, bate-papo, resumo de conteúdo, execução de instruções quase arbitrárias, tradução e geração de conteúdo e código. Os LLMs são treinados a partir de conjuntos de dados massivos usando algoritmos avançados de aprendizado de máquina para aprender os padrões e estruturas da linguagem humana. Consulte Modelos de linguagem grande (LLMs) em Databricks.

library

Um pacote de código disponível para o bloco de anotações ou trabalho em execução no cluster. Os tempos de execução do Databricks incluem muitas bibliotecas e você também pode carregar as suas próprias. Consulte Instalar bibliotecas.

Agrupamento de líquidos

Uma funcionalidade de otimização do layout de dados do Azure Databricks para tabelas Delta e Iceberg que agrupa os dados de forma incremental com base em colunas especificadas para melhorar o desempenho das consultas. Ao contrário da partição tradicional, a agrupação líquida adapta-se a padrões de dados em constante mudança. Veja Utilizar clustering líquido para tabelas.

M

Tabela gerida

Uma tabela cujos ficheiros de dados e metadados são totalmente geridos pelo Unity Catalog. As tabelas geridas são sempre armazenadas em formato Delta ou Iceberg e beneficiam de manutenção automatizada através da otimização preditiva. Ver tabelas geridas pelo Catálogo Unity em Azure Databricks para Delta Lake e Apache Iceberg.

visão materializada

Uma exibição que foi pré-calculada e armazenada para que possa ser consultada com latência mais baixa ou repetidamente sem computação redundante. Ver Vistas materializadas.

arquitetura de medalhão

Um padrão de desenho de dados que é utilizado para organizar logicamente os dados num lakehouse, com o objetivo de melhorar de forma incremental e progressiva a estrutura e a qualidade dos dados à medida que fluem através das várias camadas da arquitetura (desde as tabelas de camada Bronze ⇒ Prata ⇒ Ouro). O que é a arquitetura do medalhão lakehouse?.

metastore

O componente que armazena todas as informações de estrutura das diversas tabelas e partições no armazém de dados, incluindo informações de coluna e tipo de coluna, os processos de serialização e desserialização necessários para ler e gravar os dados, e os ficheiros correspondentes onde os dados são armazenados. Consulte Metastore.

Vista métrica

Um objeto do Unity Catalog que fornece uma forma centralizada de definir e gerir métricas de negócio reutilizáveis. As visualizações métricas separam as definições de medidas dos agrupamentos de dimensões, permitindo-lhe definir métricas uma vez e consultá-las de forma flexível em qualquer dimensão. Consulte Visualizações métricas do Catálogo Unity.

MLflow

A maior plataforma de engenharia de IA open source para agentes, LLMs e modelos de ML. O MLflow permite que equipas de todos os tamanhos depurem, avaliem, monitorizem e otimizem as suas aplicações de IA, controlando custos e gerindo o acesso a modelos e dados. O MLflow no Azure Databricks é um serviço totalmente gerido com funcionalidades adicionais para clientes empresariais, proporcionando uma implementação gerida escalável e segura do MLflow. Veja MLflow em Databricks.

Rastreamento MLflow

Uma funcionalidade do MLflow para GenAI que proporciona observabilidade de ponta a ponta ao registar cada passo que um agente ou aplicação de IA realiza. Use MLflow Tracing para depurar, monitorizar e auditar o comportamento dos agentes no desenvolvimento e produção. Ver MLflow Tracing - Observabilidade GenAI.

Protocolo de contexto de modelo (MCP)

Um standard open-source que liga agentes de IA a ferramentas, recursos, prompts e outras informações contextuais através de uma interface padronizada. O Azure Databricks fornece servidores MCP geridos, externos e personalizados. Consulte Protocolo de contexto de modelo (MCP) em Databricks.

Treinamento de modelo

O processo de treino de modelos de aprendizagem automática e deep learning no Azure Databricks utilizando muitas bibliotecas open source populares. Consulte Treinar modelos de IA e ML.

Mosaico AI

O recurso que fornece ferramentas unificadas para criar, implantar, avaliar e governar soluções de IA e ML — desde a criação de modelos preditivos de ML até os mais recentes aplicativos de IA generativa. Veja IA e aprendizado de máquina no Databricks.

Serviço de Modelos de IA Mosaic

A interface unificada para implantar, governar e consultar modelos de IA para inferência em tempo real e em lote. Consulte Implantar modelos usando o Mosaic AI Model Serving.

Treinamento de modelo de IA em mosaico

O recurso permite que você use seus dados para personalizar um modelo de base para otimizar seu desempenho para seu aplicativo específico. Ao realizar o ajuste fino completo de parâmetros ou o treinamento contínuo de um modelo básico, você pode treinar seu próprio modelo usando significativamente menos dados, tempo e recursos de computação do que treinar um modelo do zero. Consulte Ajuste fino do modelo fundacional.

Pesquisa Vetorial da Mosaic AI

Um índice de pesquisa vetorial integrado à plataforma Databricks Data Intelligence e integrado com suas ferramentas de governança e produtividade. Consulte Mosaic AI Vetor Search.

N

notebook

Uma interface web interativa usada por cientistas de dados e engenheiros para escrever e executar código em várias linguagens (por exemplo, Python, Scala, SQL) no mesmo documento. Consulte Notebooks Databricks.

O

OAuth

OAuth é um padrão aberto para delegação de acesso, comumente usado como uma forma de os usuários da Internet concederem a sites ou aplicativos acesso às suas informações em outros sites, mas sem lhes dar as senhas. Consulte Autorizar o acesso aos recursos do Azure Databricks.

P

Conexão de parceiros

Um programa Databricks que fornece integrações mantidas por fornecedores de software independentes para se conectar à maioria dos sistemas de dados corporativos. Consulte O que é o Databricks Partner Connect?.

token de acesso pessoal (PAT)

Uma cadeia de caracteres que é usada para autenticar um usuário ao acessar um sistema de computador em vez de uma senha. Consulte Autorização de acesso aos recursos do Azure Databricks.

Photon

Um mecanismo de consulta vetorizado nativo de Databricks de alto desempenho que executa suas cargas de trabalho SQL e chamadas de API DataFrame mais rapidamente para reduzir o custo total por carga de trabalho. O Photon é compatível com APIs do Apache Spark, por isso funciona com o seu código existente. Veja O que é Photon?.

Otimização preditiva

Uma funcionalidade do Azure Databricks que identifica e executa automaticamente operações de manutenção em tabelas geridas pelo Unity Catalog para melhorar o desempenho das consultas e reduzir custos de armazenamento. Consulte Otimização preditiva para tabelas gerenciadas do Unity Catalog.

pipeline

Um DAG de tabelas, exibições, exibições materializadas, fluxos e coletores que são atualizados preguiçosamente em uma ordem de dependência determinada pelo sistema.

R

geração aumentada de recuperação (RAG)

Uma técnica que permite que um modelo de linguagem grande (LLM) gere respostas enriquecidas aumentando o prompt de um usuário com dados de suporte recuperados de uma fonte de informação externa. Ao incorporar essas informações recuperadas, o RAG permite que o LLM gere respostas mais precisas e de maior qualidade em comparação com não enriquecer o prompt com contexto extra. Ver RAG (Geração Aumentada por Recuperação) no Azure Databricks.

S

esquema (Catálogo Unity)

Um subgrupo de um catálogo no Unity Catalog que pode conter tabelas, vistas, volumes, modelos e funções. Um esquema é o segundo nível do namespace de três níveis do Unity Catalog (catalog.schema.table-etc). Consulte O que é o Unity Catalog?.

computação sem servidor

Computação gerida pelo Azure Databricks, que reduz a sobrecarga de gestão e proporciona computação instantânea para aumentar a produtividade do utilizador. Consulte Conectar-se à computação sem servidor.

entidade de serviço

Uma identidade criada para uso com ferramentas automatizadas, trabalhos em execução e aplicativos. Pode restringir o acesso de um principal de serviço a recursos usando permissões, da mesma forma que um utilizador do Azure Databricks. Ao contrário de um utilizador do Azure Databricks, um principal de serviço é uma identidade exclusiva para API; não pode aceder à IU do Azure Databricks ou à CLI do Databricks diretamente. Consulte Entidades de serviço.

sumidouro (pipelines)

Um sumidouro é um destino para um fluxo que grava em um sistema externo (por exemplo, Kafka, Kinesis, Delta).

Armazém SQL

Um recurso de computação que lhe permite consultar e explorar dados no Azure Databricks. Consulte Conectar-se a um SQL warehouse.

Processamento de fluxo

Um método de processamento de dados que permite definir uma consulta em relação a um conjunto de dados não limitado e em crescimento contínuo e, em seguida, processar dados em lotes pequenos e incrementais. O processamento de fluxos do Azure Databricks utiliza Structured Streaming. Consulte Conceitos de streaming estruturado.

streaming

Streaming refere-se a qualquer conteúdo de mídia – ao vivo ou gravado – (ou seja, um fluxo de dados) entregue a computadores e dispositivos móveis através da Internet e reproduzido em tempo real. Consulte Conceitos de streaming estruturado.

Análise de streaming

O processo de análise de dados que são continuamente gerados por diferentes fontes. O Azure Databricks suporta análise de streaming através de Structured Streaming, permitindo o processamento e análise de dados em tempo real para obter insights em tempo real.

Streaming estruturado

Um mecanismo de processamento de fluxo escalável e tolerante a falhas construído no mecanismo Spark SQL, permitindo cálculos complexos como consultas de streaming. Consulte Conceitos de streaming estruturado.

Tabela de streaming

Uma tabela gerida que tem um fluxo de dados a gravar nela. Consulte Tabelas de streaming.

Tabelas do sistema

Armazenamento de dados analíticos alojados no Azure Databricks dos dados operacionais da sua conta, como registos de auditoria, utilização faturável e linhagem. As tabelas do sistema estão disponíveis no system catálogo do Unity Catalog. Consulte a referência das tabelas do sistema.

tabela sincronizada

Uma tabela sincronizada é uma tabela Postgres só de leitura do Unity Catalog que sincroniza automaticamente os dados de uma tabela do Unity Catalog com a sua instância da base de dados. Veja Forneça dados do lakehouse com tabelas sincronizadas (Lakebase Provisioned).

T

table

Uma tabela reside em um esquema e contém linhas de dados. Todas as tabelas criadas no Databricks usam Delta Lake por padrão. As tabelas apoiadas pelo Delta Lake também são chamadas de tabelas Delta. Ver tabelas Azure Databricks.

fluxo de trabalho acionado

Um pipeline que ingere todos os dados que estavam disponíveis no início da atualização para cada tabela, seguindo a ordem de dependência e depois terminando. Consulte Modo de pipeline por evento vs. contínuo.

U

função definida pelo utilizador (UDF)

Uma função personalizada criada por um utilizador para expandir as capacidades incorporadas do SQL ou de uma linguagem de programação. No Azure Databricks, os UDFs podem ser registados no Unity Catalog para governação e reutilização entre espaços de trabalho. Consulte O que são funções definidas pelo usuário (UDFs)?.

Catálogo Unity

Uma funcionalidade do Azure Databricks que oferece controlo centralizado de acesso, auditoria, linhagem e capacidades de descoberta de dados em todos os espaços de trabalho do Azure Databricks. Consulte O que é o Unity Catalog?.

V

banco de dados vetorial

Um banco de dados otimizado para armazenar e recuperar incorporações. Incorporações são representações matemáticas do conteúdo semântico de dados, normalmente dados de texto ou imagem. O Databricks fornece um índice de pesquisa vetorial que permite usar recursos de banco de dados vetorial em suas tabelas Delta. Consulte Mosaic AI Vetor Search.

view

Uma tabela virtual definida por uma consulta SQL. Ele não armazena dados em si, mas fornece uma maneira de apresentar dados de uma ou mais tabelas, em um formato específico ou abstração. Consulte O que é uma vista?.

volumes (Catálogo Unity)

Objetos do Unity Catalog que permitem a governança sobre conjuntos de dados não tabulares. Os volumes representam um volume lógico de armazenamento em um local de armazenamento de objetos em nuvem. Os volumes fornecem recursos para acessar, armazenar, governar e organizar arquivos. Consulte O que são volumes do Catálogo Unity?.

W

Empregos em Lakeflow

O conjunto de ferramentas que permite agendar e orquestrar tarefas de processamento de dados no Azure Databricks. Veja Lakeflow Jobs.

workload

A quantidade de capacidade de processamento necessária para executar uma tarefa ou grupo de tarefas. O Azure Databricks identifica dois tipos de cargas de trabalho: engenharia de dados (trabalho) e análise de dados (multiusos). Veja os componentes Azure Databricks.

workspace

Um ambiente organizacional que permite que os usuários do Databricks desenvolvam, naveguem e compartilhem objetos como blocos de anotações, experimentos, consultas e painéis. Consulte Interface do usuário do espaço de trabalho.

Comentários

Esta página foi útil?

Last updated on 2026-04-11

Partilhar via

Glossário de terminologia técnica de Azure Databricks

A

B

C

D

E

F

G

I

J

L

M

N

O

P

R

S

T

U

V

W

Comentários

Recursos adicionais