Usar um conector de comunidade registrado

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página mostra como usar um conector de comunidade registrado para ingerir dados de uma fonte com suporte em Azure Databricks. Para criar um conector personalizado para uma origem que ainda não tem suporte, consulte Criar um conector personalizado.

Requisitos

  • Um workspace do Azure Databricks com o Unity Catalog habilitado
  • Uma conexão para a origem que você deseja ingerir ou permissões para criar uma conexão
  • Gravar acesso a um catálogo e esquema para as tabelas ingeridas

Criar um pipeline de ingestão

Para usar um conector de comunidade registrado:

  1. Na barra lateral do workspace Azure Databricks, clique em +Novo>Adicionar ou carregar dados e selecione a origem nos conectores Community.

  2. Clique em + Criar conexão ou selecione uma conexão existente e clique em Avançar.

  3. Para nome do pipeline, insira um nome para o pipeline.

  4. Para local do log de eventos, insira um nome de catálogo e um nome de esquema. Azure Databricks armazena o log de eventos do pipeline aqui. As tabelas ingeridas também são escritas aqui por padrão.

  5. Para caminho raiz, insira o caminho do workspace (por exemplo, /Workspace/Users/<your-email>/connectors). Azure Databricks clona e armazena o código-fonte do conector aqui.

  6. Clique em Criar pipeline.

  7. No editor de pipeline, abra ingest.py e atualize o campo objetos para incluir as tabelas que você deseja ingerir. Por exemplo:

    from databricks.labs.community_connector.pipeline import ingest
    
    pipeline_spec = {
        "connection_name": "my_stripe_connection",  # Required: UC connection name
        "objects": [
            {"table": {"source_table": "charges"}},
            {"table": {"source_table": "customers",
                       "destination_table": "stripe_customers"}},
        ],
    }
    
    ingest(spark, pipeline_spec)
    
  8. Execute o pipeline manualmente ou agende-o.

Opções de configuração de pipeline

Você pode configurar as seguintes opções em ingest.py:

Opção Description
connection_name Obrigatório O nome da conexão que armazena credenciais de autenticação para a origem.
objects Obrigatório Uma lista de tabelas a serem ingeridas. Cada entrada tem o formato {"table": {"source_table": "..."}}. Você também pode especificar um opcional destination_table dentro do table objeto.
destination_catalog O catálogo em que as tabelas ingeridas são gravadas. O padrão é o catálogo definido durante a criação do pipeline.
destination_schema O esquema em que as tabelas ingeridas são gravadas. Pode ser definido como o esquema estabelecido durante a criação do pipeline.
scd_type A estratégia de dimensão de alteração lenta: SCD_TYPE_1, SCD_TYPE_2, ou APPEND_ONLY. Usa SCD_TYPE_1 como padrão.
primary_keys Substitua as chaves primárias padrão de uma tabela. Forneça uma lista de nomes de coluna.