Compartilhar via


Componentes do Azure Databricks

Este artigo apresenta componentes fundamentais que você precisa entender para usar Azure Databricks com eficiência.

Contas e espaços de trabalho

Em Azure Databricks, um workspace é uma implantação Azure Databricks na nuvem que funciona como um ambiente para sua equipe acessar ativos do Databricks. Sua organização pode optar por ter vários workspaces ou apenas um, dependendo de suas necessidades.

Uma Azure Databricks conta representa uma única entidade que pode incluir vários workspaces. As contas habilitadas para o Catálogo do Unity podem ser usadas para gerenciar usuários e seu acesso aos dados de forma centralizada em todos os workspaces da conta.

Cobrança: unidades do Databricks (DBUs)

Azure Databricks cobra com base em unidades do Databricks (DBUs), que são medidas de capacidade de processamento por hora de acordo com o tipo de instância de VM.

Consulte a página de preços Azure Databricks.

Autenticação e autorização

Esta seção descreve os conceitos que você precisa saber ao gerenciar Azure Databricks identidades e seu acesso a ativos Azure Databricks.

Usuário

Um indivíduo exclusivo que tem acesso ao sistema. As identidades do usuário são representadas por endereços de email. Confira Gerenciar usuários.

Entidade de serviço

Uma identidade do serviço para uso com trabalhos, ferramentas automatizadas e sistemas, como scripts, aplicativos e plataformas de CI/CD. As entidades de serviço são representadas por uma ID do aplicativo. Confira Entidades de serviço.

Grupo

Uma coleção de identidades. Os grupos simplificam o gerenciamento de identidades, facilitando a atribuição de acesso a workspaces, dados e outros objetos protegíveis. Todas as identidades do Databricks podem ser atribuídas como membros de grupos. Consulte Grupos.

ACL (lista de controle de acesso)

Uma lista de permissões anexadas ao workspace, ao cluster, ao trabalho, à tabela ou ao experimento. Uma ACL especifica quais usuários ou processos do sistema têm acesso aos objetos, bem como quais operações são permitidas nos ativos. Cada entrada em uma ACL típica especifica uma entidade e uma operação. Confira Listas de Controle de Acesso.

PAT (token de acesso pessoal)

Um token de acesso pessoal é uma cadeia de caracteres utilizada para autenticar chamadas à API REST, conexões de Parceiros de tecnologia e outras ferramentas. Consulte Autenticar com os tokens de acesso pessoal do Azure Databricks (herdados).

Microsoft Entra ID tokens também podem ser usados para autenticar na API REST.

Interfaces do Azure Databricks

Esta seção descreve as interfaces para acessar seus ativos em Azure Databricks.

interface do usuário

A interface do usuário Azure Databricks é uma interface gráfica para interagir com recursos, como pastas de workspace e seus objetos contidos, objetos de dados e recursos computacionais.

Databricks One

O Databricks One é uma interface de Azure Databricks simplificada projetada para usuários empresariais. Ele fornece um único ponto de entrada para exibir painéis de IA/BI, fazer perguntas sobre dados usando o Genie e usar aplicativos do Databricks, sem navegar nos conceitos técnicos do workspace. Veja o que é o Databricks One?.

API REST

A API REST do Databricks fornece endpoints para modificar ou solicitar informações sobre objetos de conta e workspace do Azure Databricks. Consulte referência da conta e referência do espaço de trabalho.

API REST do SQL

A API REST do SQL permite automatizar as tarefas em objetos do SQL. Consulte a API do SQL.

CLI

A CLI do Databricks está hospedada no GitHub. A CLI é baseada na API REST do Databricks.

Gerenciamento de dados

Esta seção descreve as ferramentas e os objetos lógicos usados para organizar e controlar dados em Azure Databricks. Consulte Objetos de banco de dados no Azure Databricks.

Catálogo do Unity

Unity Catalog é uma solução unificada de governança para dados e ativos de IA no Azure Databricks que fornece controle de acesso centralizado, auditoria, linhagem e capacidades de descoberta de dados em workspaces do Databricks. Veja O que é o Catálogo do Unity?.

Catálogo

Os catálogos são o contêiner de nível mais alto para organizar e isolar dados em Azure Databricks. Você pode compartilhar catálogos entre workspaces na mesma região e conta. Consulte O que são catálogos em Azure Databricks?.

Esquema

Os esquemas, também conhecidos como bancos de dados, estão contidos em catálogos e fornecem um nível mais granular de organização. Eles contêm objetos de banco de dados e ativos de IA, como volumes, tabelas, funções e modelos. Veja O que são esquemas em Azure Databricks?.

Tabela

As tabelas organizam e regem o acesso a dados estruturados. As tabelas são consultadas com o SQL e as APIs do Apache Spark. Consulte tabelas do Azure Databricks.

Visualizar

Uma exibição é um objeto somente leitura derivado de uma ou mais tabelas e exibições. As exibições salvam consultas definidas em tabelas. Confira O que é uma exibição?.

Volume

Os volumes representam um volume lógico de armazenamento em um local de armazenamento de objetos de nuvem e organizam e regem o acesso a dados não tabulares. O Databricks recomenda o uso de volumes para gerenciar todo o acesso a dados não tabulares no armazenamento de objetos de nuvem. Veja O que são volumes do Catálogo do Unity?.

Tabelas delta

Por padrão, todas as tabelas criadas em Azure Databricks são tabelas Delta. As tabelas Delta baseiam-se no projeto Delta Lake código aberto, uma estrutura para armazenamento de tabela ACID de alto desempenho em repositórios de objetos na nuvem. Uma tabela Delta armazena dados como um diretório de arquivos no armazenamento de objetos em nuvem e registra os metadados da tabela no repositório de metadados dentro de um catálogo e esquema.

Metastore

O Catálogo do Unity fornece um metastore no nível da conta que registra metadados sobre dados, IA e permissões sobre catálogos, esquemas e tabelas. Consulte Metastore.

Azure Databricks fornece um metastore do Hive herdado para clientes que não adotaram o Unity Catalog. Veja Controle de acesso à tabela no metastore do Hive (herdado).

Explorador do Catálogo

O Explorador de Catálogo permite que você explore e gerencie os ativos de dados e IA, incluindo esquemas (bancos de dados), tabelas, modelos, volumes (dados não tabulares), funções e modelos de ML registrados. Você pode usá-lo para localizar objetos de dados e proprietários, reconhecer as relações de dados entre tabelas e gerenciar permissões e compartilhamentos. Confira O que é o Explorador de Catálogos?.

Raiz do DBFS

Importante

O armazenamento e acesso de dados usando as montagens DBFS raiz ou DBFS é um padrão preterido e não recomendado pelo Databricks. Em vez disso, o Databricks recomenda o uso do Catálogo do Unity para gerenciar o acesso a todos os dados. Veja O que é o Catálogo do Unity?.

A raiz do DBFS é um local de armazenamento disponível para todos os usuários por padrão. Confira O que é DBFS?.

Gerenciamento de computação

Esta seção descreve os conceitos que você precisa saber para executar cálculos em Azure Databricks.

Agrupamento

Um conjunto de recursos de computação e configurações em que você executa notebooks e trabalhos. Há dois tipos de clusters: para todas as finalidades e de trabalho. Consulte Compute.

  • Crie um cluster para todas as finalidades usando a interface do usuário, a CLI ou a API REST. Você pode encerrar e reiniciar manualmente um cluster para todas as finalidades. Vários usuários podem compartilhar tais clusters para realizar a análise interativa de forma colaborativa.
  • O agendador de trabalho Azure Databricks cria a cluster de trabalho quando você executa um trabalho em um cluster de trabalho new e encerra o cluster quando o trabalho é concluído. Não é possível reiniciar um cluster de trabalho.

piscina

Um conjunto de instâncias ociosas e prontas para uso que reduzem o tempo de inicialização e de dimensionamento automático do cluster. Quando anexado a um pool, um cluster aloca o driver e os nós de trabalho do pool. Confira Referência de configuração do pool.

Se o pool não tiver recursos ociosos suficientes para acomodar a solicitação do cluster, o pool se expandirá alocando novas instâncias do provedor de instâncias. Quando um cluster anexado é encerrado, as instâncias usadas por ele são retornadas para o pool e podem ser reutilizadas por outro cluster.

Runtime do Databricks

O conjunto de componentes principais que são executados nos clusters gerenciados por Azure Databricks. Consulte Compute. Azure Databricks tem os seguintes runtimes:

  • O Databricks Runtime inclui o Apache Spark, mas também adiciona vários componentes e atualizações que aprimoram substancialmente a usabilidade, o desempenho e a segurança da análise de Big Data.
  • Databricks Runtime para Machine Learning é criado no Databricks Runtime e fornece infraestrutura de machine learning predefinida integrada a todos os recursos do workspace Azure Databricks. Ele contém várias bibliotecas populares, incluindo TensorFlow, PyTorch, Keras e XGBoost.

Interface de Jobs e Pipelines

A interface do usuário do workspace Jobs &Pipelines fornece entrada para os Pipelines Declarativos do Jobs, Lakeflow Spark e UIs do Lakeflow Connect, que são ferramentas que permitem orquestrar e agendar fluxos de trabalho.

Trabalhos

Um mecanismo não interativo para orquestrar e agendar notebooks, bibliotecas e outras tarefas. Ver Trabalhos do Lakeflow

Pipelines

Os Pipelines Declarativos do Lakeflow Spark fornecem uma estrutura declarativa para a criação de pipelines de processamento de dados confiáveis, manteneveis e testáveis. Consulte Pipelines Declarativos do Lakeflow Spark.

Carga de trabalho

Carga de trabalho é a quantidade de capacidade de processamento necessária para executar uma tarefa ou um grupo de tarefas. Azure Databricks identifica dois tipos de cargas de trabalho: engenharia de dados (trabalho) e análise de dados (para todos os fins).

  • Data engineering Uma carga de trabalho (automatizada) é executada em um cluster de tarefas que o agendador de tarefas do Azure Databricks cria para cada tarefa.
  • Análise de dados Uma carga de trabalho (interativa) é executada em um cluster para todas as finalidades. Cargas de trabalho interativas normalmente executam comandos em um Azure Databricks notebook. No entanto, a execução de um trabalho em um cluster para todas as finalidades existente também é tratada como uma carga de trabalho interativa.

Contexto de execução

O estado de um ambiente de loop de leitura-avaliação-impressão (REPL) para cada linguagem de programação com suporte. Os idiomas compatíveis são Python, R, Scala e SQL.

Engenharia de dados

As ferramentas de Engenharia de dados auxiliam na colaboração entre cientistas de dados, engenheiros de dados, analistas de dados e engenheiros de aprendizado de máquina.

Espaço de Trabalho

Um workspace é um ambiente para acessar todos os seus ativos Azure Databricks. Um workspace organiza objetos (notebooks, bibliotecas, painéis e experimentos) em pastas e fornece acesso a objetos de dados e recursos computacionais.

Notebook

Uma interface baseada na Web para criar fluxos de trabalho de ciência de dados e aprendizado de máquina que podem conter comandos executáveis, visualizações e texto narrativo. Consulte os notebooks do Databricks.

Biblioteca

Um pacote de código disponível para o notebook ou o trabalho em execução no cluster. Os runtimes do Databricks incluem muitas bibliotecas e você também pode carregar as suas próprias. Consulte Instalar bibliotecas.

Pasta Git (anteriormente Repos)

Uma pasta cujo conteúdo é co-versionado ao ser sincronizado com um repositório Git remoto. As pastas Git do Databricks integram-se ao Git para fornecer controle de origem e de versão para projetos.

IA e aprendizado de máquina

O Databricks fornece um ambiente integrado de ponta a ponta com serviços gerenciados para desenvolver e implantar aplicativos de aprendizado de máquina e IA.

IA do Mosaic

A marca de produtos e serviços do Databricks Mosaic AI Research, uma equipe de pesquisadores e engenheiros responsáveis ​​pelos maiores avanços do Databricks em IA generativa. Os produtos do Mosaic AI incluem os recursos de ML e IA no Databricks. Consulte Mosaic Research.

Tempo de Execução do Aprendizado de Máquina

Para ajudá-lo a desenvolver modelos de ML e IA, o Databricks fornece um Databricks Runtime para Machine Learning, que automatiza a criação de computação com infraestrutura de machine learning e aprendizado profundo pré-criada, incluindo as bibliotecas ML e DL mais comuns. Ele também tem suporte a GPU integrado e pré-configurado, incluindo drivers e bibliotecas de suporte. Navegue até as informações sobre as versões mais recentes das Notas de versão e compatibilidade do Databricks Runtime.

Experimento

Uma coleção de execuções do MLflow para o desenvolvimento de agentes, aplicativos LLM e modelos de ML. Confira Organizar execuções de treinamento com experimentos do MLflow.

Recursos

As características são um componente importante dos modelos de aprendizado de máquina. Um repositório de recursos permite o compartilhamento e a descoberta de recursos em toda a sua organização e também garante que o mesmo código de computação de recursos seja utilizado para treinamento e inferência de modelos. Consulte o Repositório de Recursos do Databricks.

Modelos de IA generativa

O Databricks dá suporte à exploração, ao desenvolvimento e à implantação de modelos de IA generativos, incluindo:

Registro de modelos

O Databricks fornece uma versão hospedada do Registro de Modelo do MLflow no Catálogo do Unity. Os modelos registrados no Catálogo do Unity herdam o controle de acesso centralizado, a linhagem, bem como a descoberta e o acesso entre workspaces. Consulte Gerenciar o ciclo de vida do modelo no Catálogo Unity.

Serviço de modelo

O Mosaic AI Model Serving fornece uma interface unificada para implantar, governar e consultar modelos de IA. Cada modelo que você atende está disponível como uma API REST que você pode integrar ao seu aplicativo Web ou cliente. Com o Mosaic AI Model Serving, você pode implantar seus próprios modelos, modelos de base ou modelos de terceiros hospedados fora do Databricks. Veja Implantar modelos usando o Serviço de Modelo de IA do Mosaic.

Armazenamento de dados

O armazenamento de dados refere-se à coleta e ao armazenamento de dados de várias fontes para que possam ser acessados rapidamente para insights e relatórios de negócios. O Databricks SQL é uma coleção de serviços que traz funcionalidades de armazenamento de dados e desempenho para seus data lakes existentes. Consulte a arquitetura de data warehouse.

Consulta

Uma consulta é uma instrução SQL válida que permite a você interagir com seus dados. Crie consultas usando o editor SQL na plataforma ou conecte usando um conector, driver ou API do SQL. Consulte Acessar e gerenciar as consultas salvas para saber mais sobre como trabalhar com consultas.

SQL Warehouse

Um recurso de computação no qual você executa consultas SQL. Há três tipos de armazéns SQL: Clássico, Pro e Sem Servidor. Azure Databricks recomenda usar armazéns sem servidor quando disponível. Consulte tipos de warehouse SQL para comparar os recursos disponíveis para cada tipo de warehouse.

Histórico de consultas

Uma lista de consultas executadas e as características de desempenho. O histórico de consultas permite monitorar o desempenho das consultas, ajudando a identificar os gargalos e otimizar os runtimes das consultas. Consulte Histórico de consultas.

Visualização

Uma apresentação gráfica do resultado da execução de uma consulta. Consulte Visualizações nos notebooks do Databricks e no editor de SQL.

Painel de controle

Uma apresentação de visualizações de dados e comentários. Você pode usar dashboards para enviar relatórios automaticamente para qualquer pessoa em sua conta Azure Databricks. Use o Genie Code para ajudá-lo a criar visualizações com base em prompts de linguagem natural. Consulte Painéis. Você também pode criar um dashboard a partir de um notebook. Consulte Dashboards nos notebooks.