Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Importante
Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.
Esta página mostra como usar um conector de comunidade registrado para ingerir dados de uma fonte com suporte em Azure Databricks. Para criar um conector personalizado para uma origem que ainda não tem suporte, consulte Criar um conector personalizado.
Requisitos
- Um workspace do Azure Databricks com o Unity Catalog habilitado
- Uma conexão para a origem que você deseja ingerir ou permissões para criar uma conexão
- Gravar acesso a um catálogo e esquema para as tabelas ingeridas
Criar um pipeline de ingestão
Para usar um conector de comunidade registrado:
Na barra lateral do workspace Azure Databricks, clique em +Novo>Adicionar ou carregar dados e selecione a origem nos conectores Community.
Clique em + Criar conexão ou selecione uma conexão existente e clique em Avançar.
Para nome do pipeline, insira um nome para o pipeline.
Para local do log de eventos, insira um nome de catálogo e um nome de esquema. Azure Databricks armazena o log de eventos do pipeline aqui. As tabelas ingeridas também são escritas aqui por padrão.
Para caminho raiz, insira o caminho do workspace (por exemplo,
/Workspace/Users/<your-email>/connectors). Azure Databricks clona e armazena o código-fonte do conector aqui.Clique em Criar pipeline.
No editor de pipeline, abra
ingest.pye atualize o campo objetos para incluir as tabelas que você deseja ingerir. Por exemplo:from databricks.labs.community_connector.pipeline import ingest pipeline_spec = { "connection_name": "my_stripe_connection", # Required: UC connection name "objects": [ {"table": {"source_table": "charges"}}, {"table": {"source_table": "customers", "destination_table": "stripe_customers"}}, ], } ingest(spark, pipeline_spec)Execute o pipeline manualmente ou agende-o.
Opções de configuração de pipeline
Você pode configurar as seguintes opções em ingest.py:
| Opção | Description |
|---|---|
connection_name |
Obrigatório O nome da conexão que armazena credenciais de autenticação para a origem. |
objects |
Obrigatório Uma lista de tabelas a serem ingeridas. Cada entrada tem o formato {"table": {"source_table": "..."}}. Você também pode especificar um opcional destination_table dentro do table objeto. |
destination_catalog |
O catálogo em que as tabelas ingeridas são gravadas. O padrão é o catálogo definido durante a criação do pipeline. |
destination_schema |
O esquema em que as tabelas ingeridas são gravadas. Pode ser definido como o esquema estabelecido durante a criação do pipeline. |
scd_type |
A estratégia de dimensão de alteração lenta: SCD_TYPE_1, SCD_TYPE_2, ou APPEND_ONLY. Usa SCD_TYPE_1 como padrão. |
primary_keys |
Substitua as chaves primárias padrão de uma tabela. Forneça uma lista de nomes de coluna. |