Partilhar via


Execute um notebook Databricks utilizando a funcionalidade Databricks Notebook Activity no Azure Data Factory

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Data Factory em Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA incorporada e novas funcionalidades. Se és novo na integração de dados, começa pelo Fabric Data Factory. As cargas de trabalho existentes do ADF podem atualizar para o Fabric para aceder a novas capacidades em ciência de dados, análise em tempo real e relatórios.

Neste tutorial, utilizas o portal Azure para criar um pipeline Azure Data Factory que executa um notebook Databricks contra o cluster de jobs Databricks. Também passa os parâmetros do Azure Data Factory para o caderno Databricks durante a execução.

Vai executar os seguintes passos neste tutorial:

  • Criar uma fábrica de dados.

  • Crie um pipeline que utilize a atividade do Databricks Notebook.

  • Acionar uma execução de pipeline.

  • Monitorizar a execução do pipeline.

Se não tiver uma subscrição Azure, crie uma conta gratuita antes de começar.

Nota

Para obter detalhes completos sobre como usar a Atividade do Bloco de Anotações do Databricks, incluindo o uso de bibliotecas e a passagem de parâmetros de entrada e saída, consulte a documentação da Atividade do Bloco de Anotações do Databricks.

Pré-requisitos

  • Espaço de trabalho do Azure Databricks. Crie uma área de trabalho do Databricks ou utilize uma já existente. Crias um caderno Python no teu espaço de trabalho do Azure Databricks. Depois executas o caderno e passas-lhe os parâmetros usando o Azure Data Factory.

Criar uma fábrica de dados

  1. Inicie o navegador web Microsoft Edge ou Google Chrome. Atualmente, o Data Factory UI é suportado apenas nos navegadores Microsoft Edge e Google Chrome.

  2. Selecione Criar um recurso no menu do portal Azure, depois selecione Analytics>Data Factory :

    Captura de tela mostrando a seleção do Data Factory no painel Novo.

  3. Na página Criar Fábrica de Dados, no separador Basics, selecione o seu Azure Subscrição onde pretende criar a fábrica de dados.

  4. Em Grupo de Recursos, efetue um destes passos:

    1. Selecione um grupo de recursos existente na lista suspensa.

    2. Selecione Criar novo e insira o nome de um novo grupo de recursos.

    Para saber mais sobre grupos de recursos, veja Using resource groups to manage your Azure resources.

  5. Em Região, selecione o local para a fábrica de dados.

    A lista mostra apenas os locais que o Data Factory suporta e onde os seus metadados do Azure Data Factory serão armazenados. Os armazenamentos de dados associados (como o Armazenamento do Azure e o Base de Dados SQL do Azure) e os sistemas de computação (como o Azure HDInsight) que o Data Factory utiliza podem ser executados noutras regiões.

  6. Em Nome, insira ADFTutorialDataFactory.

    O nome da fábrica de dados Azure deve ser globalmente único. Se você vir o seguinte erro, altere o nome do data factory (por exemplo, use <yourname>ADFTutorialDataFactory). Para regras de nomenclatura de artefactos do Data Factory, veja o artigo Data Factory – Regras de Nomenclatura.

    Captura de ecrã a mostrar o erro quando um nome não está disponível.

  7. Em Versão, selecione V2.

  8. Selecione Seguinte: Configuração do Git e, em seguida, selecione a caixa de seleção Configurar Git mais tarde.

  9. Selecione Rever + criar e selecione Criar depois de a validação ser concluída.

  10. Após a conclusão da criação, selecione Ir para o recurso para navegar até a página Data Factory . Selecione o bloco Open Azure Data Factory Studio para iniciar a aplicação de interface de utilizador (UI) Azure Data Factory num separador do navegador.

    Captura de ecrã a mostrar a página inicial do Azure Data Factory, com o bloco Open Azure Data Factory Studio.

Criar serviços ligados

Nesta secção, vai criar um serviço ligado do Databricks. Este serviço ligado contém as informações de ligação ao cluster do Databricks:

Criar um serviço vinculado Azure Databricks

  1. Na página inicial, mude para a guia Gerenciar no painel esquerdo.

    Captura de ecrã que mostra o separador Gerir.

  2. Selecione Serviços vinculados em Conexões e, em seguida, selecione + Novo.

    Captura de ecrã a mostrar como criar uma nova ligação.

  3. Na janela Novo serviço ligado, selecione Compute>Azure Databricks e depois selecione Continue.

    Captura de tela mostrando como especificar um serviço vinculado Databricks.

  4. Na janela Novo serviço vinculado, conclua as seguintes etapas:

    1. Em Nome, introduza AzureDatabricks_LinkedService.

    2. Selecione o espaço de trabalho Databricks apropriado no qual você executará seu bloco de anotações.

    3. Em Selecionar cluster, selecione Novo cluster de trabalho.

    4. Para a URL do espaço de trabalho Databricks, as informações devem ser preenchidas automaticamente.

    5. Para Tipo de autenticação, se selecionar Access Token, gera-o do local de trabalho do Azure Databricks. Pode encontrar os passos aqui. Para Managed Service Identity e User Assigned Managed Identity, conceda a função Contributor a ambas as identidades no menu Controlo de Acesso do recurso Azure Databricks.

    6. Em Versão do cluster, selecione a versão que deseja usar.

    7. Para Tipo de nó de cluster, selecione Standard_D3_v2 sob a categoria General Purpose (HDD) para este tutorial.

    8. Em Trabalhadores, introduza 2.

    9. Selecione Criar.

      Captura de ecrã mostrando a configuração do novo serviço ligado Azure Databricks.

Criar uma canalização

  1. Selecione o botão + (mais) e, em seguida, selecione Pipeline no menu.

    Captura de tela mostrando botões para criar um novo pipeline.

  2. Crie um parâmetro para ser utilizado no Pipeline. Mais tarde, transmita este parâmetro à Atividade do Databricks Notebook. No pipeline vazio, selecione o separador Parâmetros, selecione + Novo e nomeie-o como 'nome'.

    Captura de tela mostrando como criar um novo parâmetro.

    Captura de tela mostrando como criar o parâmetro name.

  3. Na caixa de ferramentas Atividades, expanda Databricks. Arraste a atividade Notebook da caixa de ferramentas Atividades para a superfície de desenho do pipeline.

    Captura de tela mostrando como arrastar o bloco de anotações para a superfície do designer.

  4. Nas propriedades da atividade DatabricksBloco de Anotações na janela na parte inferior, conclua as seguintes etapas:

    1. Muda para a aba Azure Databricks.

    2. Selecione AzureDatabricks_LinkedService (que você criou no procedimento anterior).

    3. Mudar para o separador Definições.

    4. Para navegar, selecione um caminho de Notebook do Databricks. Vamos criar um Notebook e especificar o caminho aqui. O Caminho do Notebook é obtido ao seguir os próximos passos.

      1. Inicie o seu Azure Databricks Workspace.

      2. Crie uma Nova Pasta na Área de Trabalho e denomine-a adftutorial.

      3. Crie um novo bloco de anotações, vamos chamá-lo de mynotebook. Clique com o botão direito do mouse na pasta adftutorial e selecione Criar.

      4. No Notebook recém-criado denominado "mynotebook", adicione o seguinte código:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        
      5. O caminho do bloco de anotações, neste caso, é /adftutorial/mynotebook.

  5. Volte para a ferramenta de criação da IU do Data Factory. Navegue até a guia Configurações na atividade Notebook1.

    a) Adicione um parâmetro à atividade do Bloco de Anotações. Vai utilizar o mesmo parâmetro que adicionou anteriormente ao Pipeline.

    Captura de tela mostrando como adicionar um parâmetro.

    b) Nomeie o parâmetro como entrada e forneça o valor como expressão @pipeline().parameters.name.

  6. Para validar o pipeline, selecione o botão Validar na barra de ferramentas. Para fechar a janela de validação, selecione o botão Fechar .

    Captura de ecrã mostrando como validar o pipeline.

  7. Selecione Publicar tudo. A interface do Data Factory publica entidades (serviços ligados e pipeline) para o serviço Azure Data Factory.

    Captura de tela mostrando como publicar as novas entidades do data factory.

Acionar uma execução de pipeline

Selecione Adicionar gatilho na barra de ferramentas e, em seguida, selecione Gatilho agora.

Captura de ecrã a mostrar como selecionar o comando 'Acionar agora'.

A caixa de diálogo de execução do pipeline solicita o parâmetro nome. Utilize /path/filename como parâmetro aqui. Selecione OK.

Captura de tela mostrando como fornecer um valor para os parâmetros de nome.

Monitorizar a execução do pipeline.

  1. Alterne para a guia Monitor . Confirme se você vê um pipeline em execução. A criação de um cluster de trabalhos do Databricks, onde o Notebook vai ser executado, demora aproximadamente entre 5 a 8 minutos.

    Captura de ecrã mostrando como monitorizar o pipeline.

  2. Selecione Atualizar periodicamente para verificar o estado da execução do pipeline.

  3. Para ver as execuções de atividade associadas à execução do pipeline, selecione o link pipeline1 na coluna Nome do Pipeline.

  4. Na página Execuções de atividade, selecione Saída na coluna Nome da atividade para exibir a saída de cada atividade e você pode encontrar o link para logs do Databricks no painel Saída para obter logs do Spark mais detalhados.

  5. Você pode voltar para a visualização das execuções de pipeline ao selecionar o link Todas as execuções de pipeline no menu de navegação no topo.

Verificar a saída

Podes aceder ao espaço de trabalho Azure Databricks, ir a Job Runs e podes ver o estado Job como pendente de execução, execução ou terminado.

Você pode selecionar o nome do trabalho e navegar para ver mais detalhes. Numa execução bem-sucedida, pode validar os parâmetros passados e a saída do notebook Python.

Resumo

O pipeline deste exemplo aciona uma atividade do Databricks Notebook e transmite um parâmetro a ela. Aprendeu a:

  • Criar uma fábrica de dados.

  • Criar um pipeline que faça uso de uma atividade de Databricks Notebook.

  • Acionar uma execução de pipeline.

  • Monitorizar a execução do pipeline.