Compartilhar via


Conectar-se a fontes de dados e serviços externos

Esta página fornece recomendações para administradores e usuários de energia que estão configurando conexões entre Azure Databricks e fontes de dados e serviços externos.

Você pode conectar sua conta Azure Databricks a fontes de dados, como armazenamento de objetos de nuvem, sistemas de gerenciamento de banco de dados relacionais, serviços de streaming de dados e plataformas corporativas, como CRMs. Você também pode conectar sua conta Azure Databricks a serviços externos que não são de armazenamento.

Configurar conexões com o armazenamento de objetos

A maioria dos dados usados por cargas de trabalho Azure Databricks é armazenada no armazenamento de objetos de nuvem, como Azure Data Lake Storage ou AWS S3. Você pode gerenciar o acesso ao armazenamento de objetos de nuvem usando um dos seguintes:

Conexões do Unity Catalog

Uma conexão do Unity Catalog é um objeto seguro que armazena o endpoint e as credenciais necessárias para acessar um sistema externo. As conexões fornecem uma maneira governada de gerenciar a autenticação e a configuração para sistemas de dados externos, incluindo federação, ingestão gerenciada, JDBC e HTTP. Para obter uma visão geral de todos os tipos de conexão e como escolher entre eles, consulte as conexões do Catálogo do Unity.

Configurar conexões com sistemas de dados externos

O Databricks oferece várias opções para configurar conexões com sistemas de dados externos. A tabela a seguir fornece uma visão geral de alto nível dessas opções:

Option Description
Conectores de federação de consulta A Federação lakehouse fornece acesso somente leitura a dados em sistemas de dados corporativos. A federação de consulta usa conexões JDBC seguras para federar sistemas de dados externos, como PostgreSQL e MySQL. A federação do catálogo conecta catálogos externos, como um Metastore do Hive ou o Catálogo do Snowflake Horizon, para consultar dados diretamente no armazenamento de arquivos.
Conectores de ingestão gerenciada Lakeflow Connect permite que usuários administradores criem uma conexão e um pipeline de ingestão gerenciado simultaneamente na interface de usuário para ingestão de dados. Consulte Conectores gerenciados no Lakeflow Connect.
Se os usuários que criarão pipelines forem usuários não administradores ou planejarem usar APIs do Databricks, os SDKs do Databricks, a CLI do Databricks ou os Pacotes de Automação Declarativa, um administrador deverá primeiro criar a conexão no Catalog Explorer. Essas interfaces exigem que os usuários especifiquem uma conexão existente ao criar um pipeline. Consulte Conectar-se às fontes de ingestão gerenciadas.
Conectores de streaming Azure Databricks fornece conectores otimizados para muitos sistemas de dados de streaming.
Para todas as fontes de dados de streaming, você deve gerar credenciais que forneçam acesso e carreguem essas credenciais em Azure Databricks. O Databricks recomenda armazenar credenciais usando segredos, pois você pode usar segredos para todas as opções de configuração e em todos os modos de acesso.
Todos os conectores de dados para fontes de streaming dão suporte à passagem de credenciais usando opções ao definir consultas de streaming. Consulte conectores Padrões no Lakeflow Connect.
Integrações de terceiros Use ferramentas de terceiros para se conectar a fontes de dados externas e automatizar a ingestão de dados no lakehouse. Algumas soluções também incluem o ETL reverso e acesso direto aos dados do lakehouse em sistemas externos. Consulte O que é o Databricks Partner Connect?.
Drivers Azure Databricks inclui drivers para sistemas de dados externos em cada Databricks Runtime. Opcionalmente, você pode instalar drivers de terceiros para acessar dados em outros sistemas. Você deve configurar conexões para cada tabela. Alguns drivers incluem o acesso de gravação. Consulte Conectar a sistemas externos.
Para consultas de leitura, a Federação Lakehouse é sempre preferida em vez desses drivers.
JDBC Conecte-se a bancos de dados externos usando JDBC com uma conexão com o Unity Catalog para acesso governado, isolamento de credenciais e suporte a computação cruzada. Consulte a conexão JDBC.
Para obter configurações JDBC herdadas sem governança do Catálogo do Unity, consulte Bancos de dados de consulta usando JDBC.
Para federação de consulta somente leitura, a Lakehouse Federation é sempre preferida.

Configurar conexões com serviços externos

O Catálogo do Unity controla o acesso a serviços que não são de armazenamento usando um objeto protegível chamado credencial de serviço. Uma credencial de serviço encapsula uma credencial de nuvem de longo prazo que fornece acesso a um serviço externo ao qual os usuários precisam se conectar de Azure Databricks. Consulte Conectar-se a serviços de nuvem externos usando o Catálogo do Unity

Gerenciar e solicitar acesso a fontes de dados e serviços externos

A maioria dos métodos de conexão exige privilégios elevados tanto na fonte de dados externa quanto no serviço e no workspace Azure Databricks. Em organizações típicas, poucos usuários têm privilégios suficientes em Azure Databricks ou em provedores de armazenamento e dados externos para configurar as próprias conexões de dados.

Sua organização pode já ter configurado o acesso a uma fonte de dados ou serviço usando um dos padrões descritos nos artigos vinculados a partir desta página. Se sua organização tiver um processo bem definido para solicitar acesso a dados e serviços de terceiros, o Databricks recomenda seguir esse processo. Se você não tiver certeza de como obter acesso a uma fonte de dados, este procedimento poderá ajudar:

  1. Use o Gerenciador de Catálogos para exibir as tabelas e os volumes que você pode acessar. Consulte O que é o Explorador de Catálogos?.
  2. Pergunte aos seus colegas ou gerentes sobre as fontes de dados que eles podem acessar.
    • A maioria das organizações usa grupos sincronizados de seu provedor de identidade (por exemplo: Okta ou Microsoft Entra ID) para gerenciar permissões para usuários do workspace. Se outros membros da sua equipe puderem acessar fontes de dados às quais você precisa de acesso, faça com que um administrador do workspace o adicione ao grupo correto para conceder acesso.
    • Se uma determinada tabela, volume ou fonte de dados foi configurada por um colega de trabalho, esse indivíduo deve ser capaz de conceder-lhe acesso aos dados.

Algumas organizações anexam permissões de acesso a dados a clusters de computação e sql warehouses específicos. Esse é um modelo de governança herdado, mas se sua organização o usar e você quiser saber quais fontes de dados estão disponíveis em um recurso de computação específico, entre em contato com o criador de computação listado na guia Computação .