Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Este artigo apresenta componentes fundamentais que precisa de compreender para utilizar o Azure Databricks de forma eficaz.
Contas e espaços de trabalho
Em Azure Databricks, um workspace é uma implementação Azure Databricks na cloud que funciona como ambiente para a sua equipa aceder aos ativos do Databricks. Sua organização pode optar por ter vários espaços de trabalho ou apenas um, dependendo de suas necessidades.
Uma Azure Databricks conta representa uma única entidade que pode incluir múltiplos espaços de trabalho. As contas habilitadas para o Catálogo Unity podem ser usadas para gerir utilizadores e o seu acesso aos dados de forma centralizada em todo o espaço de trabalho da conta.
Faturação: unidades Databricks (DBUs)
O Azure Databricks fatura com base em unidades Databricks (DBUs), que são unidades de capacidade de processamento por hora consoante o tipo de instância da VM.
Consulte a página de preços Azure Databricks.
Autenticação e autorização
Esta secção descreve conceitos que precisa de conhecer ao gerir identidades do Azure Databricks e o seu acesso aos ativos do Azure Databricks.
Usuário
Um indivíduo único que tem acesso ao sistema. As identidades dos usuários são representadas por endereços de e-mail. Consulte Gerenciar usuários.
Principal de serviço
Uma identidade de serviço para uso com trabalhos, ferramentas automatizadas e sistemas, como scripts, aplicativos e plataformas de CI/CD. As entidades de serviço são representadas por uma ID de aplicação. Consulte Entidades de serviço.
Grupo
Uma coleção de identidades. Os grupos simplificam o gerenciamento de identidades, facilitando a atribuição de acesso a espaços de trabalho, dados e outros objetos protegíveis. Todas as identidades do Databricks podem ser atribuídas como membros de grupos. Consulte Grupos.
Lista de controle de acesso (ACL)
Uma lista de permissões anexadas ao espaço de trabalho, cluster, trabalho, tabela ou experimento. Uma ACL especifica quais usuários ou processos do sistema recebem acesso aos objetos, bem como quais operações são permitidas nos ativos. Cada entrada em uma ACL típica especifica um assunto e uma operação. Consulte Listas de controle de acesso.
Token de acesso pessoal (PAT)
Um token de acesso pessoal é uma cadeia de caracteres usada para autenticar chamadas de API REST, conexões de parceiros de tecnologia e outras ferramentas. Consulte Autenticar com tokens de acesso pessoal do Azure Databricks (legacy).
Os tokens Microsoft Entra ID também podem ser usados para autenticar à API REST.
Interfaces do Azure Databricks
Esta secção descreve as interfaces para aceder aos seus ativos no Azure Databricks.
IU
A interface do Azure Databricks é uma interface gráfica para interagir com funcionalidades, como pastas de espaço de trabalho e os seus objetos contidos, objetos de dados e recursos computacionais.
Databricks One
O Databricks One é uma interface simplificada do Azure Databricks concebida para utilizadores empresariais. Fornece um ponto de entrada único para visualizar painéis de IA/BI, colocar questões de dados usando o Genie e usar as aplicações Databricks, sem ter de navegar por conceitos técnicos de espaço de trabalho. Consulte O que é Databricks One?.
API REST
A API REST do Databricks fornece endpoints para modificar ou solicitar informações sobre objetos de contas e espaços de trabalho do Azure Databricks. Consulte a referência da conta e a referência do espaço de trabalho.
SQL REST API
A API REST SQL permite automatizar tarefas em objetos SQL. Consulte API SQL.
CLI
A CLI Databricks CLI está alojada em GitHub. A CLI é construída sobre a API REST do Databricks.
Gestão de dados
Esta secção descreve as ferramentas e objetos lógicos usados para organizar e governar dados no Azure Databricks. Ver objetos do banco de dados em Azure Databricks.
Catálogo Unity
O Unity Catalog é uma solução unificada de governação para dados e ativos de IA no Azure Databricks que fornece controlo centralizado de acessos, auditoria, linhagem e capacidades de descoberta de dados em todos os espaços de trabalho do Databricks. Consulte O que é o Unity Catalog?.
Catálogo
Os catálogos são o contentor de mais alto nível para organizar e isolar dados no Azure Databricks. Você pode compartilhar catálogos entre espaços de trabalho dentro da mesma região e conta. Ver O que são os catálogos em Azure Databricks?.
Esquema
Os esquemas, também conhecidos como bancos de dados, estão contidos em catálogos e fornecem um nível mais granular de organização. Eles contêm objetos de banco de dados e ativos de IA, como volumes, tabelas, funções e modelos. Ver O que são esquemas em Azure Databricks?.
Tabela
As tabelas organizam e controlam o acesso a dados estruturados. Você consulta tabelas com Apache Spark SQL e Apache Spark APIs. Ver tabelas Azure Databricks.
Visualizar
Uma vista é um objeto somente leitura derivado de uma ou mais tabelas e vistas. As visualizações guardam consultas definidas em tabelas. Consulte O que é uma vista?.
Volume
Os volumes representam um volume lógico de armazenamento em um local de armazenamento de objetos em nuvem e organizam e controlam o acesso a dados não tabulares. O Databricks recomenda o uso de volumes para gerenciar todo o acesso a dados não tabulares no armazenamento de objetos na nuvem. Consulte O que são volumes do Catálogo Unity?.
Tabelas delta
Por defeito, todas as tabelas criadas no Azure Databricks são tabelas Delta. As tabelas Delta baseiam-se no projeto Delta Lake open source, uma estrutura para armazenamento de tabelas ACID de alto desempenho sobre armazenamentos de objetos na cloud. Uma tabela Delta armazena dados como um diretório de ficheiros no armazenamento de objetos em nuvem e regista metadados da tabela no metastore dentro de um catálogo e esquema.
Metaloja
O Unity Catalog fornece um metastore no nível da conta que registra metadados sobre dados, IA e permissões sobre catálogos, esquemas e tabelas. Consulte Metastore.
O Azure Databricks fornece uma metastore Hive legada para clientes que ainda não adotaram o Unity Catalog. Consulte Controle de acesso à tabela do Hive metastore (legado).
Explorador de Catálogos
O Catalog Explorer permite explorar e gerenciar dados e ativos de IA, incluindo esquemas (bancos de dados), tabelas, modelos, volumes (dados não tabulares), funções e modelos de ML registrados. Você pode usá-lo para localizar objetos de dados e proprietários, entender as relações de dados entre tabelas e gerenciar permissões e compartilhamento. Consulte O que é o Catalog Explorer?.
Raiz do DBFS
Importante
Armazenar e aceder a dados utilizando o diretório raiz do DBFS ou montagens de DBFS é um padrão obsoleto e não recomendado pelo Databricks. Em vez disso, o Databricks recomenda o uso do Unity Catalog para gerenciar o acesso a todos os dados. Consulte O que é o Unity Catalog?.
A raiz DBFS é um local de armazenamento disponível para todos os usuários por padrão. Consulte O que é DBFS?.
Gestão computacional
Esta secção descreve conceitos que precisa de conhecer para executar cálculos no Azure Databricks.
Agrupamento
Um conjunto de recursos e configurações de computação nos quais você executa blocos de anotações e trabalhos. Existem dois tipos de clusters: geral e de trabalho. Consulte Compute.
- Você cria um cluster multiuso usando a interface do usuário, CLI ou API REST. Pode terminar um cluster multiuso manualmente e reiniciá-lo. Esses clusters podem ser partilhados por vários utilizadores para a realização de análises interativas.
- O agendador Azure Databricks de tarefas cria um cluster de jobs quando executas um job num new job cluster e termina o cluster quando o job está concluído. Não é possível reiniciar um cluster de trabalhos.
Piscina
Um conjunto de instâncias ociosas e prontas para uso que reduzem os tempos de inicialização e dimensionamento automático do cluster. Quando anexado a um pool, um cluster aloca os seus nós de controlador e de trabalho a partir do pool. Consulte Referência de configuração do pool.
Se o pool não tiver recursos ociosos suficientes para acomodar a solicitação do cluster, o pool expande-se alocando novas instâncias do fornecedor de instâncias. Quando um cluster anexado é encerrado, as instâncias usadas são retornadas ao pool e podem ser reutilizadas por um cluster diferente.
Tempo de execução do Databricks
O conjunto de componentes principais que correm nos clusters geridos pelo Azure Databricks. Consulte Compute. Azure Databricks tem os seguintes runtimes:
- O Databricks Runtime inclui o Apache Spark, mas também adiciona uma série de componentes e atualizações que melhoram substancialmente a usabilidade, o desempenho e a segurança da análise de big data.
- Databricks Runtime for Machine Learning é construído sobre o Databricks Runtime e fornece infraestrutura machine learning pré-construída integrada com todas as capacidades do espaço de trabalho Azure Databricks. Ele contém várias bibliotecas populares, incluindo TensorFlow, Keras, PyTorch e XGBoost.
Tarefas e Pipelines UI
A interface do usuário do espaço de trabalho Jobs & Pipelines fornece entrada para as interfaces do usuário Jobs, Lakeflow Spark Declarative Pipelines e Lakeflow Connect, que são ferramentas que permitem orquestrar e agendar fluxos de trabalho.
Tarefas
Um mecanismo não interativo para orquestrar e agendar blocos de anotações, bibliotecas e outras tarefas. Veja as vagas de Lakeflow
Canalizações
Os pipelines declarativos do Lakeflow Spark fornecem uma estrutura declarativa para a construção de pipelines de processamento de dados confiáveis, manuteníveis e testáveis. Veja Lakeflow Spark Declarative Pipelines.
Carga de trabalho
Carga de trabalho é a quantidade de capacidade de processamento necessária para executar uma tarefa ou grupo de tarefas. O Azure Databricks identifica dois tipos de cargas de trabalho: engenharia de dados (trabalho) e análise de dados (multiusos).
- Engenharia de dados Uma carga de trabalho (automatizada) corre em um cluster de tarefas que o agendador de tarefas de Azure Databricks cria para cada carga de trabalho.
- Análise de dados Uma carga de trabalho (interativa) é executada em um cluster multiuso. Cargas de trabalho interativas normalmente executam comandos dentro de um Azure Databricks notebook. No entanto, a execução de um trabalho em um cluster multiuso existente também é tratada como uma carga de trabalho interativa.
Contexto de execução
O estado de um ambiente REPL (Read-Eval-Print Loop) para cada linguagem de programação suportada. As linguagens suportadas são Python, R, Scala e SQL.
Engenharia de dados
As ferramentas de engenharia de dados ajudam na colaboração entre cientistas de dados, engenheiros de dados, analistas de dados e engenheiros de aprendizado de máquina.
Área de trabalho
Um workspace é um ambiente para aceder a todos os seus ativos Azure Databricks. Um espaço de trabalho organiza objetos (blocos de anotações, bibliotecas, painéis e experimentos) em pastas e fornece acesso a objetos de dados e recursos computacionais.
Bloco de Notas
Uma interface baseada na Web para criar fluxos de trabalho de ciência de dados e aprendizado de máquina que podem conter comandos, visualizações e texto narrativo executáveis. Consulte Notebooks Databricks.
Biblioteca
Um pacote de código disponível para o bloco de anotações ou trabalho em execução no cluster. Os tempos de execução do Databricks incluem muitas bibliotecas e você também pode carregar as suas próprias. Consulte Instalar bibliotecas.
Pasta Git (anteriormente Repos)
Uma pasta cujo conteúdo é co-versionado sincronizando-os com um repositório Git remoto. As pastas Databricks Git integram-se ao Git para fornecer controle de origem e versão para seus projetos.
IA e aprendizagem automática
O Databricks fornece um ambiente integrado de ponta a ponta com serviços gerenciados para desenvolver e implantar aplicativos de IA e aprendizado de máquina.
Mosaico AI
A marca de produtos e serviços da Databricks Mosaic AI Research, uma equipe de pesquisadores e engenheiros responsáveis pelos maiores avanços da Databricks em IA generativa. Os produtos Mosaic AI incluem os recursos de ML e IA no Databricks. Ver Mosaic Research.
Tempo de execução do aprendizado de máquina
Para ajudar a desenvolver modelos de ML e IA, a Databricks disponibiliza um Databricks Runtime for Machine Learning, que automatiza a criação de computação com infraestrutura pré-construída de machine learning e deep learning, incluindo as bibliotecas de ML e DL mais comuns. Ele também tem suporte de GPU embutido e pré-configurado, incluindo drivers e bibliotecas de suporte. Consulte as informações sobre as versões mais recentes do Databricks Runtime e sua compatibilidade nas notas de versão do Databricks Runtime.
Experimentação
Uma coleção de MLflow funciona para desenvolver agentes, aplicações LLM e modelos de ML. Consulte Organizar execuções de treinamento com experimentos MLflow.
Funcionalidades
As características são um componente importante dos modelos de aprendizagem automática. Um repositório de recursos permite o compartilhamento e a descoberta de recursos em toda a organização e também garante que o mesmo código de computação de recursos seja usado para treinamento e inferência de modelos. Consulte Databricks Feature Store.
Modelos de IA generativa
O Databricks suporta a exploração, desenvolvimento e implantação de modelos generativos de IA, incluindo:
- Espaço de teste de IA, um ambiente semelhante a um bate-papo no espaço de trabalho onde podes testar, solicitar e comparar LLMs. Veja Bate-papo com LLMs e protótipos de aplicativos de IA generativa usando o AI Playground.
- Um conjunto interno de modelos de base pré-configurados que você pode consultar:
- Consulte APIs de modelo de base de pagamento por token.
- Consulte [Recomendado] Implantar modelos de base do Unity Catalog para modelos de base que você pode servir com um único clique.
- LLMs hospedados por terceiros, chamados modelos externos. Estes modelos destinam-se a ser utilizados tal como estão.
- Recursos para personalizar um modelo de base para otimizar seu desempenho para seu aplicativo específico (geralmente chamado de ajuste fino). Veja Ajuste fino do modelo base.
Registo de modelo
O Databricks fornece uma versão hospedada do MLflow Model Registry no Unity Catalog. Os modelos registados no Unity Catalog herdam controlo de acesso centralizado, linhagem, além de capacidades de descoberta e de acesso entre diferentes espaços de trabalho. Consulte Gerenciar o ciclo de vida do modelo no Catálogo Unity.
Serviço de Modelo
O Mosaic AI Model Serving fornece uma interface unificada para implantar, governar e consultar modelos de IA. Cada modelo que você atende está disponível como uma API REST que você pode integrar em seu aplicativo Web ou cliente. Com o Mosaic AI Model Serving, você pode implantar seus próprios modelos, modelos de base ou modelos de terceiros hospedados fora do Databricks. Consulte Implantar modelos usando o Mosaic AI Model Serving.
Armazenamento de dados
Data warehousing refere-se à coleta e armazenamento de dados de várias fontes para que possam ser acessados rapidamente para insights e relatórios de negócios. O Databricks SQL é uma coleção de serviços que oferece capacidades e desempenho de armazenamento de dados aos seus lagos de dados existentes. Consulte Arquitetura de armazenamento de dados.
Consulta
Uma consulta é uma instrução SQL válida que permite que você interaja com seus dados. Você pode criar consultas usando o editor SQL na plataforma ou conectar-se usando um conector, driver ou API SQL. Consulte Acessar e gerenciar consultas salvas para saber mais sobre como trabalhar com consultas.
Armazém SQL
Um recurso de computação no qual você executa consultas SQL. Existem três tipos de armazéns SQL: Classic, Pro e Serverless. O Azure Databricks recomenda o uso de armazéns serverless sempre que disponíveis. Consulte Tipos de armazém SQL para comparar os recursos disponíveis para cada tipo de depósito.
Histórico de consultas
Uma lista de consultas executadas e suas características de desempenho. O histórico de consultas permite monitorar o desempenho da consulta, ajudando a identificar gargalos e otimizar os tempos de execução da consulta. Consulte Histórico de consultas.
Visualização
Uma apresentação gráfica do resultado da execução de uma consulta. Consulte Visualizações em blocos de anotações Databricks e editor SQL.
Painel de Controlo
Uma apresentação de visualizações de dados e comentários. Pode usar dashboards para enviar automaticamente relatórios a qualquer pessoa na sua conta Azure Databricks. Use o Genie Code para ajudar a construir visualizações com prompts de linguagem natural. Consulte Painéis. Você também pode criar um painel a partir de um bloco de anotações. Veja Painéis em notebooks.