Compartilhar via


Acessar dados do Databricks usando sistemas externos

Esta página fornece uma visão geral da funcionalidade e das recomendações para tornar os dados gerenciados e regidos por Azure Databricks disponíveis para sistemas externos.

Esses padrões focam em cenários em que sua organização precisa integrar ferramentas ou sistemas confiáveis aos dados do Azure Databricks. Se você estiver procurando orientação sobre o compartilhamento de dados fora da sua organização, consulte Compartilhar dados e ativos de IA com segurança.

Qual acesso externo Azure Databricks dá suporte?

Azure Databricks recomenda usar o Catálogo do Unity para controlar todos os ativos de dados. O Catálogo do Unity fornece integrações a clientes delta lake usando a API REST do Unity e clientes Apache Iceberg usando o catálogo REST do Iceberg. Para obter uma lista completa de integrações com suporte, consulte as integrações do Catálogo do Unity.

A tabela a seguir fornece uma visão geral dos formatos de suporte e padrões de acesso para objetos do Catálogo do Unity.

Objeto do Catálogo do Unity Formatos com suporte Padrões de acesso
Tabelas gerenciadas Delta Lake, Iceberg API REST do Unity, catálogo REST do Iceberg, Compartilhamento Delta
Tabelas externas Lago Delta API REST do Unity, catálogo REST do Iceberg, Compartilhamento Delta, URIs de nuvem
Tabelas externas CSV, JSON, Avro, Parquet, ORC, texto API REST do Unity, URIs de nuvem
Volumes externos Todos os tipos de dados URIs de nuvem
Tabelas estrangeiras* Delta Lake, Iceberg API REST do Unity, catálogo REST do Iceberg (versão prévia), Compartilhamento Delta
Tabelas estrangeiras* CSV, JSON, Avro, Parquet, ORC, texto API REST do Unity, URIs de nuvem

* Há suporte apenas para tabelas estrangeiras federadas usando a federação de catálogo . Para garantir novas leituras de mecanismos externos em tabelas estrangeiras, os clientes podem atualizar periodicamente metadados usando trabalhos do Lakeflow.

Para obter mais detalhes sobre esses objetos do Catálogo do Unity, consulte o seguinte:

Distribuição de credenciais do Catálogo do Unity

O provisionamento de credenciais do Unity Catalog permite que os usuários configurem clientes externos para herdar permissões sobre os dados regidos pelo Azure Databricks. Os clientes Iceberg e Delta podem dar suporte à venda automática de credenciais. Consulte Provisionamento de credenciais do Catálogo do Unity para acesso a sistemas externos.

Acessar tabelas com clientes Delta

Use a API REST do Unity para ler, gravar e criar tabelas gerenciadas e externas do Catálogo do Unity apoiadas pelo Delta Lake de clientes Delta compatíveis. Consulte as tabelas do Access Databricks de clientes Delta.

Importante

A criação e gravação em tabelas do Unity Catalog gerenciadas por clientes Delta está em Beta.

Para tabelas externas, o Catálogo do Unity não rege leituras e gravações executadas diretamente no armazenamento de objetos de nuvem de sistemas externos, portanto, você deve configurar políticas e credenciais adicionais em sua conta de nuvem para garantir que as políticas de governança de dados sejam respeitadas fora Azure Databricks.

Nota

A documentação do Azure Databricks lista limitações e considerações de compatibilidade com base em versões do Databricks Runtime e recursos de plataforma. Você deve confirmar quais protocolos de leitor e gravador, assim como recursos de tabela, seu cliente suporta. Consulte delta.io.

Acessar tabelas com clientes Iceberg

Azure Databricks oferece aos clientes do Iceberg suporte para leitura, gravação e criação de tabelas registradas no Unity Catalog. Os clientes com suporte incluem Apache Spark, Apache Flink, Trino e Snowflake. Consulte o acesso a tabelas do Azure Databricks a partir de clientes do Apache Iceberg.

Compartilhar tabelas somente leitura entre domínios

Você pode usar o Compartilhamento Delta para conceder acesso somente leitura a tabelas Delta gerenciadas ou externas entre domínios e sistemas compatíveis. Os sistemas de software que dão suporte a leituras de cópia zero de tabelas delta Sharing incluem SAP, Amperity e Oracle. Consulte os dados do Share e os ativos de IA com segurança.

Nota

Você também pode usar o Delta Sharing para conceder acesso somente leitura a clientes ou parceiros. O Compartilhamento Delta também dá suporte a dados compartilhados usando o Databricks Marketplace.

Acesse dados tabulares que não são do Delta Lake com tabelas externas

As tabelas externas do Catálogo do Unity dão suporte a muitos formatos diferentes do Delta Lake, incluindo Parquet, ORC, CSV e JSON. As tabelas externas armazenam todos os arquivos de dados em diretórios em um local de armazenamento de objetos de nuvem especificado por um URI de nuvem fornecido durante a criação da tabela. Outros sistemas acessam esses arquivos de dados diretamente do armazenamento de objetos na nuvem.

O Catálogo do Unity não rege leituras e gravações executadas diretamente no armazenamento de objetos de nuvem de sistemas externos, portanto, você deve configurar políticas e credenciais adicionais em sua conta de nuvem para garantir que as políticas de governança de dados sejam respeitadas fora Azure Databricks.

Ler e gravar em tabelas externas de vários sistemas pode levar a problemas de consistência e corrupção de dados, pois nenhuma garantia transacional é fornecida para formatos diferentes do Delta Lake.

O Catálogo do Unity pode não captar novas partições gravadas em tabelas externas apoiadas por formatos diferentes do Delta Lake. O Databricks recomenda executar MSCK REPAIR TABLE table_name regularmente para que o Unity Catalog registre todos os arquivos de dados gravados por sistemas externos.

Acessar dados não tabulares com volumes externos

O Databricks recomenda o uso de volumes externos para armazenar arquivos de dados não tabulares que são lidos ou gravados por sistemas externos, além de Azure Databricks. Confira O que são volumes do Unity Catalog?.

O Catálogo do Unity não rege leituras e gravações executadas diretamente no armazenamento de objetos de nuvem de sistemas externos, portanto, você deve configurar políticas e credenciais adicionais em sua conta de nuvem para garantir que as políticas de governança de dados sejam respeitadas fora Azure Databricks.

Os volumes fornecem APIs, SDKs e outras ferramentas para obter arquivos e colocar arquivos em volumes. Consulte Trabalho com arquivos nos volumes do Unity Catalog.

Nota

O Compartilhamento Delta permite compartilhar volumes com outras contas Azure Databricks, mas não se integra a sistemas externos.