Usar um conector de comunidade registrado

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página mostra como usar um conector de comunidade registrado para ingerir dados de uma fonte com suporte em Azure Databricks. Para criar um conector personalizado para uma origem que ainda não tem suporte, consulte Criar um conector personalizado.

Requisitos

Um workspace do Azure Databricks com o Unity Catalog habilitado
Uma conexão para a origem que você deseja ingerir ou permissões para criar uma conexão
Gravar acesso a um catálogo e esquema para as tabelas ingeridas

Criar um pipeline de ingestão

Para usar um conector de comunidade registrado:

Na barra lateral do workspace Azure Databricks, clique em +Novo>Adicionar ou carregar dados e selecione a origem nos conectores Community.
Clique em + Criar conexão ou selecione uma conexão existente e clique em Avançar.
Para nome do pipeline, insira um nome para o pipeline.
Para local do log de eventos, insira um nome de catálogo e um nome de esquema. Azure Databricks armazena o log de eventos do pipeline aqui. As tabelas ingeridas também são escritas aqui por padrão.
Para caminho raiz, insira o caminho do workspace (por exemplo, /Workspace/Users/<your-email>/connectors). Azure Databricks clona e armazena o código-fonte do conector aqui.
Clique em Criar pipeline.

No editor de pipeline, abra ingest.py e atualize o campo objetos para incluir as tabelas que você deseja ingerir. Por exemplo:

from databricks.labs.community_connector.pipeline import ingest

pipeline_spec = {
    "connection_name": "my_stripe_connection",  # Required: UC connection name
    "objects": [
        {"table": {"source_table": "charges"}},
        {"table": {"source_table": "customers",
                   "destination_table": "stripe_customers"}},
    ],
}

ingest(spark, pipeline_spec)

Execute o pipeline manualmente ou agende-o.

Opções de configuração de pipeline

Você pode configurar as seguintes opções em ingest.py:

Opção	Description
`connection_name`	Obrigatório O nome da conexão que armazena credenciais de autenticação para a origem.
`objects`	Obrigatório Uma lista de tabelas a serem ingeridas. Cada entrada tem o formato `{"table": {"source_table": "..."}}`. Você também pode especificar um opcional `destination_table` dentro do `table` objeto.
`destination_catalog`	O catálogo em que as tabelas ingeridas são gravadas. O padrão é o catálogo definido durante a criação do pipeline.
`destination_schema`	O esquema em que as tabelas ingeridas são gravadas. Pode ser definido como o esquema estabelecido durante a criação do pipeline.
`scd_type`	A estratégia de dimensão de alteração lenta: `SCD_TYPE_1`, `SCD_TYPE_2`, ou `APPEND_ONLY`. Usa `SCD_TYPE_1` como padrão.
`primary_keys`	Substitua as chaves primárias padrão de uma tabela. Forneça uma lista de nomes de coluna.

Comentários

Esta página foi útil?

Last updated on 2026-05-03