Compartilhar via


Executar um Databricks Notebook com a atividade Databricks Notebook no Azure Data Factory

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Data Factory no Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA interna e novos recursos. Se você não estiver familiarizado com a integração de dados, comece com Fabric Data Factory. As cargas de trabalho existentes do ADF podem ser atualizadas para Fabric para acessar novos recursos em ciência de dados, análise em tempo real e relatórios.

Neste tutorial, você usa o portal do Azure para criar um pipeline do Azure Data Factory que executa um Databricks Notebook em cluster de trabalhos Databricks. Ele também passa parâmetros do Azure Data Factory para o notebook do Databricks durante a execução.

Neste tutorial, você realizará os seguintes procedimentos:

  • Criar uma fábrica de dados.

  • Criar um pipeline que usa a atividade Databricks Notebook.

  • Dispare uma execução de pipeline.

  • Monitorar a execução de pipeline.

Se você não tiver uma assinatura Azure, crie uma conta gratuita antes de começar.

Observação

Para ver todos os detalhes sobre como usar a Atividade de Notebook do Databricks, incluindo o uso de bibliotecas e a transmissão de parâmetros de entrada e saída, consulte a documentação da Atividades de Notebook do Databricks.

Pré-requisitos

  • Azure Databricks workspace. Criar um workspace no Databricks ou usar um existente. Você cria um bloco de anotações Python em seu workspace Azure Databricks. Em seguida, você executa o notebook e passa parâmetros para ele usando Azure Data Factory.

Criar uma fábrica de dados (data factory)

  1. Inicie Microsoft Edge ou Google Chrome navegador da Web. Atualmente, a interface do usuário do Data Factory tem suporte apenas em navegadores da Web Microsoft Edge e do Google Chrome.

  2. Selecione Criar um recurso no menu do portal Azure e selecione Analytics>Data Factory:

    Captura de tela que mostra a seleção de Data Factory no painel Novo.

  3. Na página Create Data Factory, na guia Basics, selecione sua Assinatura do Azure na qual deseja criar a Fábrica de Dados.

  4. Em Grupo de Recursos, use uma das seguintes etapas:

    1. Selecione um grupo de recursos existente na lista suspensa.

    2. Escolha Criar e insira o nome de um grupo de recursos.

    Para saber mais sobre grupos de recursos, consulte Using resource groups to manage your Azure resources.

  5. Em Região, selecione a localização da Fábrica de Dados.

    A lista mostra apenas os locais compatíveis com o Data Factory e onde seus metadados Azure Data Factory serão armazenados. Os armazenamentos de dados associados (como Armazenamento do Azure e Banco de Dados SQL do Azure) e cálculos (como Azure HDInsight) usados pelo Data Factory podem ser executados em outras regiões.

  6. Em Nome, insira ADFTutorialDataFactory.

    O nome do Data Factory do Azure deve ser globalmente exclusivo. Se o erro a seguir for exibido, altere o nome do data factory (por exemplo, use <seunome>ADFTutorialDataFactory). Para ver as regras de nomenclatura para artefatos do Data Factory consulte o artigo Data Factory - regras de nomenclatura.

    Captura de tela mostrando o Erro quando um nome não está disponível.

  7. Para Versão, selecione V2.

  8. Selecione Avançar: Configuração do Git e marque a caixa de seleção Configurar o Git mais tarde.

  9. Selecione Examinar + criar e escolha Criar depois que a validação for aprovada.

  10. Após a conclusão da criação, selecione Ir para o recurso para navegar até a página do Data Factory. Selecione o bloco Open Azure Data Factory Studio para iniciar a interface do usuário do aplicativo Azure Data Factory em uma guia separada do navegador.

    Captura de tela que mostra a página inicial do Azure Data Factory, com o bloco Open Azure Data Factory Studio.

Criar serviços vinculados

Nesta seção, você cria um serviço vinculado Databricks. Esse serviço vinculado contém as informações de conexão para o cluster Databricks:

Criar um serviço vinculado do Databricks do Azure

  1. Na página inicial, alterne para a guia Gerenciar no painel esquerdo.

    Captura de tela que mostra a guia Gerenciar.

  2. Selecione Serviços vinculados em Conexões e escolha + Novo.

    Captura de tela que mostra como criar uma conexão.

  3. Na janela Novo serviço vinculado, selecione Compute>Azure Databricks e selecione Continue.

    Captura de tela que mostra como especificar um serviço vinculado do Databricks.

  4. Na janela Novo serviço vinculado, execute as seguintes etapas:

    1. Para Nome, insira AzureDatabricks_LinkedService.

    2. Selecione o workspace do Databricks adequado no qual você executará o notebook.

    3. Em Selecionar cluster, escolha Novo cluster de trabalho.

    4. Em URL do workspace do Databricks, as informações devem ser preenchidas automaticamente.

    5. Para o tipo Autenticação, se você selecionar Access Token, gere-o a partir do workspace do Azure Databricks. Você pode encontrar as etapas aqui. Para a Identidade Gerenciada de Serviço e Identidade Gerenciada Atribuída pelo Usuário, conceda a função de Contribuidor a ambas as identidades no menu de Controle de Acesso do recurso Azure Databricks.

    6. Em Versão do cluster, selecione a versão que deseja usar.

    7. Para o Tipo de nó de cluster, selecione Standard_D3_v2 na categoria Uso Geral (HD) para este tutorial.

    8. Para Trabalhadores, insira 2.

    9. Selecione Criar.

      Screenshot mostrando a configuração do novo serviço vinculado Azure Databricks.

Criar um pipeline

  1. Selecione o botão + (adição) e escolha Pipeline no menu.

    Captura de tela que mostra botões para criar um novo pipeline.

  2. Crie um parâmetro a ser usado no Pipeline. Mais tarde, você passará esse parâmetro para a atividade do Databricks Notebook. No pipeline vazio, selecione a guia Parâmetros, escolha + Novo e nomeie-o como 'nome'.

    Captura de tela que mostra como criar um parâmetro.

    Captura de tela que mostra como criar o parâmetro name.

  3. Na caixa de ferramentas Atividades, expanda Databricks. Arraste a atividade Notebook da caixa de ferramentas Atividades para a superfície do designer do pipeline.

    Captura de tela que mostra como arrastar o notebook para a área de design.

  4. Nas propriedades para a janela de atividade DatabricksNotebook na parte inferior, execute as seguintes etapas:

    1. Alterne para a guia Azure Databricks.

    2. Selecione AzureDatabricks_LinkedService (criado no procedimento anterior).

    3. Alterne para a guia Configurações .

    4. Navegue para selecionar um caminho de Notebook do Databricks. Vamos criar um notebook e especificar o caminho aqui. Siga as próximas etapas para acessar o Caminho do Notebook.

      1. Inicie seu workspace Azure Databricks.

      2. Crie uma Nova Pasta no local de trabalho e chame-a de adftutorial.

      3. Crie um novo notebook, vamos chamá-lo de mynotebook. Clique com o botão direito do mouse na pasta adftutorial e selecione Criar.

      4. No notebook recém-criado, “mynotebook”, adicione o seguinte código:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        
      5. O Caminho do Notebook, nesse caso, é /adftutorial/mynotebook.

  5. Volte para a ferramenta de criação de IU do Data Factory. Navegue até a guia Configurações na atividade Notebook1.

    um. Adicione um parâmetro à atividade de Notebook. Use o mesmo parâmetro que você adicionou anteriormente ao Pipeline.

    Captura de tela mostrando como adicionar um parâmetro.

    b. Nomear o parâmetro como input e fornecer o valor como expressão @pipeline().parameters.name.

  6. Para validar o pipeline, selecione o botão Validar na barra de ferramentas. Para fechar a janela de validação, selecione o botão Fechar.

    Captura de tela que mostra como validar o pipeline.

  7. Selecione Publicar tudo. A interface do usuário do Data Factory publica entidades (serviços vinculados e pipeline) no serviço Azure Data Factory.

    Captura de tela que mostra como publicar as entidades do novo data factory.

Disparar uma execução de pipeline

Selecione Adicionar gatilho na barra de ferramentas e escolha Disparar agora.

Captura de tela que mostra como selecionar o comando 'Acionar agora'.

A caixa de diálogo Execução de pipeline solicita o parâmetro name. Use /path/filename como o parâmetro aqui. Selecione OK.

Captura de tela que mostra como fornecer um valor para os parâmetros name.

Monitorar a execução de pipeline

  1. Alterne para a guia Monitorar. Verifique se o pipeline está sendo executado. Leva aproximadamente 5 a 8 minutos para criar um cluster de trabalho do Databricks onde o notebook é executado.

    Captura de tela que mostra como monitorar o pipeline.

  2. Selecione Atualizar periodicamente para verificar o status da execução do pipeline.

  3. Para ver as execuções de atividades associadas à execução de pipeline, selecione o link pipeline1 na coluna Nome do pipeline.

  4. Na página Execuções de atividades, selecione Saída na coluna Nome da atividade para ver a saída de cada atividade. Encontre o link para os logs do Databricks no painel Saída para obter logs do Spark mais detalhados.

  5. Volte à exibição das execuções de pipelines selecionando o link Todas as execuções de pipelines no menu estrutural no canto superior.

Verificar a saída

Você pode efetuar logon no workspace do Azure Databricks; acessar Execuções de Trabalho e ver o status do Trabalho como execução pendente, em execução ou concluído.

Você pode selecionar o Nome do trabalho e navegar para ver mais detalhes. Na execução bem-sucedida, você pode validar os parâmetros passados e a saída do bloco de anotações Python.

Resumo

O pipeline neste exemplo dispara uma atividade do Databricks Notebook e passa um parâmetro para ele. Você aprendeu a:

  • Criar uma fábrica de dados.

  • Criar um pipeline que usa uma atividade do Databricks Notebook.

  • Dispare uma execução de pipeline.

  • Monitorar a execução de pipeline.