Executar um Databricks Notebook com a atividade Databricks Notebook no Azure Data Factory

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Data Factory no Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA interna e novos recursos. Se você não estiver familiarizado com a integração de dados, comece com Fabric Data Factory. As cargas de trabalho existentes do ADF podem ser atualizadas para Fabric para acessar novos recursos em ciência de dados, análise em tempo real e relatórios.

Neste tutorial, você usa o portal do Azure para criar um pipeline do Azure Data Factory que executa um Databricks Notebook em cluster de trabalhos Databricks. Ele também passa parâmetros do Azure Data Factory para o notebook do Databricks durante a execução.

Neste tutorial, você realizará os seguintes procedimentos:

Criar uma fábrica de dados.
Criar um pipeline que usa a atividade Databricks Notebook.
Dispare uma execução de pipeline.
Monitorar a execução de pipeline.

Se você não tiver uma assinatura Azure, crie uma conta gratuita antes de começar.

Observação

Para ver todos os detalhes sobre como usar a Atividade de Notebook do Databricks, incluindo o uso de bibliotecas e a transmissão de parâmetros de entrada e saída, consulte a documentação da Atividades de Notebook do Databricks.

Pré-requisitos

Azure Databricks workspace. Criar um workspace no Databricks ou usar um existente. Você cria um bloco de anotações Python em seu workspace Azure Databricks. Em seguida, você executa o notebook e passa parâmetros para ele usando Azure Data Factory.

Criar uma fábrica de dados (data factory)

Inicie Microsoft Edge ou Google Chrome navegador da Web. Atualmente, a interface do usuário do Data Factory tem suporte apenas em navegadores da Web Microsoft Edge e do Google Chrome.
Selecione Criar um recurso no menu do portal Azure e selecione Analytics>Data Factory:
Na página Create Data Factory, na guia Basics, selecione sua Assinatura do Azure na qual deseja criar a Fábrica de Dados.
Em Grupo de Recursos, use uma das seguintes etapas:
1. Selecione um grupo de recursos existente na lista suspensa.
2. Escolha Criar e insira o nome de um grupo de recursos.
Para saber mais sobre grupos de recursos, consulte Using resource groups to manage your Azure resources.
Em Região, selecione a localização da Fábrica de Dados.

A lista mostra apenas os locais compatíveis com o Data Factory e onde seus metadados Azure Data Factory serão armazenados. Os armazenamentos de dados associados (como Azure Storage e Azure SQL Database) e cálculos (como Azure HDInsight) usados pelo Data Factory podem ser executados em outras regiões.
Em Nome, insira ADFTutorialDataFactory.

O nome do Data Factory do Azure deve ser globalmente exclusivo. Se o erro a seguir for exibido, altere o nome do data factory (por exemplo, use <seunome>ADFTutorialDataFactory). Para ver as regras de nomenclatura para artefatos do Data Factory consulte o artigo Data Factory - regras de nomenclatura.
Para Versão, selecione V2.
Selecione Avançar: Configuração do Git e marque a caixa de seleção Configurar o Git mais tarde.
Selecione Examinar + criar e escolha Criar depois que a validação for aprovada.
Após a conclusão da criação, selecione Ir para o recurso para navegar até a página do Data Factory. Selecione o bloco Open Azure Data Factory Studio para iniciar a interface do usuário do aplicativo Azure Data Factory em uma guia separada do navegador.

Criar serviços vinculados

Nesta seção, você cria um serviço vinculado Databricks. Esse serviço vinculado contém as informações de conexão para o cluster Databricks:

Criar um serviço vinculado do Databricks do Azure

Na página inicial, alterne para a guia Gerenciar no painel esquerdo.
Selecione Serviços vinculados em Conexões e escolha + Novo.
Na janela Novo serviço vinculado, selecione Compute>Azure Databricks e selecione Continue.
Na janela Novo serviço vinculado, execute as seguintes etapas:
1. Para Nome, insira AzureDatabricks_LinkedService.
2. Selecione o workspace do Databricks adequado no qual você executará o notebook.
3. Em Selecionar cluster, escolha Novo cluster de trabalho.
4. Em URL do workspace do Databricks, as informações devem ser preenchidas automaticamente.
5. Para o tipo Autenticação, se você selecionar Access Token, gere-o a partir do workspace do Azure Databricks. Você pode encontrar as etapas aqui. Para a Identidade Gerenciada de Serviço e Identidade Gerenciada Atribuída pelo Usuário, conceda a função de Contribuidor a ambas as identidades no menu de Controle de Acesso do recurso Azure Databricks.
6. Em Versão do cluster, selecione a versão que deseja usar.
7. Para o Tipo de nó de cluster, selecione Standard_D3_v2 na categoria Uso Geral (HD) para este tutorial.
8. Para Trabalhadores, insira 2.
9. Selecione Criar.

Criar um pipeline

Selecione o botão + (adição) e escolha Pipeline no menu.
Crie um parâmetro a ser usado no Pipeline. Mais tarde, você passará esse parâmetro para a atividade do Databricks Notebook. No pipeline vazio, selecione a guia Parâmetros, escolha + Novo e nomeie-o como 'nome'.
Na caixa de ferramentas Atividades, expanda Databricks. Arraste a atividade Notebook da caixa de ferramentas Atividades para a superfície do designer do pipeline.
Nas propriedades para a janela de atividade DatabricksNotebook na parte inferior, execute as seguintes etapas:
1. Alterne para a guia Azure Databricks.
2. Selecione AzureDatabricks_LinkedService (criado no procedimento anterior).
3. Alterne para a guia Configurações .
4. Navegue para selecionar um caminho de Notebook do Databricks. Vamos criar um notebook e especificar o caminho aqui. Siga as próximas etapas para acessar o Caminho do Notebook.
  1. Inicie seu workspace Azure Databricks.
  2. Crie uma Nova Pasta no local de trabalho e chame-a de adftutorial.
  3. Crie um novo notebook, vamos chamá-lo de mynotebook. Clique com o botão direito do mouse na pasta adftutorial e selecione Criar.
  4. No notebook recém-criado, “mynotebook”, adicione o seguinte código:
```
# Creating widgets for leveraging parameters, and printing the parameters

dbutils.widgets.text("input", "","")
y = dbutils.widgets.get("input")
print ("Param -\'input':")
print (y)
```
  5. O Caminho do Notebook, nesse caso, é /adftutorial/mynotebook.
Volte para a ferramenta de criação de IU do Data Factory. Navegue até a guia Configurações na atividade Notebook1.

um. Adicione um parâmetro à atividade de Notebook. Use o mesmo parâmetro que você adicionou anteriormente ao Pipeline.

b. Nomear o parâmetro como input e fornecer o valor como expressão @pipeline().parameters.name.
Para validar o pipeline, selecione o botão Validar na barra de ferramentas. Para fechar a janela de validação, selecione o botão Fechar.
Selecione Publicar tudo. A interface do usuário do Data Factory publica entidades (serviços vinculados e pipeline) no serviço Azure Data Factory.

Disparar uma execução de pipeline

Selecione Adicionar gatilho na barra de ferramentas e escolha Disparar agora.

Captura de tela que mostra como selecionar o comando 'Acionar agora'.

A caixa de diálogo Execução de pipeline solicita o parâmetro name. Use /path/filename como o parâmetro aqui. Selecione OK.

Captura de tela que mostra como fornecer um valor para os parâmetros name.

Monitorar a execução de pipeline

Alterne para a guia Monitorar. Verifique se o pipeline está sendo executado. Leva aproximadamente 5 a 8 minutos para criar um cluster de trabalho do Databricks onde o notebook é executado.
Selecione Atualizar periodicamente para verificar o status da execução do pipeline.
Para ver as execuções de atividades associadas à execução de pipeline, selecione o link pipeline1 na coluna Nome do pipeline.
Na página Execuções de atividades, selecione Saída na coluna Nome da atividade para ver a saída de cada atividade. Encontre o link para os logs do Databricks no painel Saída para obter logs do Spark mais detalhados.
Volte à exibição das execuções de pipelines selecionando o link Todas as execuções de pipelines no menu estrutural no canto superior.

Verificar a saída

Você pode efetuar logon no workspace do Azure Databricks; acessar Execuções de Trabalho e ver o status do Trabalho como execução pendente, em execução ou concluído.

Você pode selecionar o Nome do trabalho e navegar para ver mais detalhes. Na execução bem-sucedida, você pode validar os parâmetros passados e a saída do bloco de anotações Python.

Resumo

O pipeline neste exemplo dispara uma atividade do Databricks Notebook e passa um parâmetro para ele. Você aprendeu a:

Criar uma fábrica de dados.
Criar um pipeline que usa uma atividade do Databricks Notebook.
Dispare uma execução de pipeline.
Monitorar a execução de pipeline.

Comentários

Esta página foi útil?

Last updated on 2026-04-09