Transformar dados ao executar um trabalho no Databricks.

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Sugestão

Data Factory em Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA incorporada e novas funcionalidades. Se és novo na integração de dados, começa pelo Fabric Data Factory. As cargas de trabalho existentes do ADF podem atualizar para o Fabric para aceder a novas capacidades em ciência de dados, análise em tempo real e relatórios.

A atividade de trabalho do Azure Databricks num pipeline executa trabalhos do Databricks no seu espaço de trabalho do Azure Databricks, incluindo trabalhos sem servidor. Este artigo baseia-se no artigo de atividades de transformação de dados, que apresenta uma visão geral da transformação de dados e das atividades de transformação suportadas. Azure Databricks é uma plataforma gerida para executar o Apache Spark.

Pode criar um trabalho Databricks diretamente através da interface do Azure Data Factory Studio.

Adicionar uma atividade de Job para Azure Databricks ao pipeline com Interface de Utilizador

Para usar uma atividade de Job para Azure Databricks num pipeline, complete os seguintes passos:

  1. Pesquise por Job no painel Atividades do pipeline e arraste uma atividade de Job para o canvas do pipeline.

  2. Selecione a nova atividade Trabalho na tela, se ainda não estiver selecionada.

  3. Selecione o separador Azure Databricks para selecionar ou criar um novo serviço Azure Databricks ligado.

    Observação

    A atividade do Azure Databricks Job corre automaticamente em clusters serverless, por isso não precisa de especificar um cluster na configuração do seu serviço ligado. Em vez disso, escolha a opção Serverless .

    Captura de ecrã da interface de uma atividade de Trabalho, com o separador Azure Databricks destacado.

  4. Selecione o separador Settings e especifique o trabalho a executar no Azure Databricks, parâmetros base opcionais a passar ao trabalho e quaisquer outras bibliotecas a instalar no cluster para executar o trabalho.

    Captura de ecrã da IU de uma atividade de Trabalho, com o separador Definições realçado.

Databricks Definição de atividade de trabalho

Aqui está a definição JSON de exemplo de uma atividade de trabalho Databricks:

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksJob",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedservice",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "jobID": "012345678910112",
            "jobParameters": {
                "testParameter": "testValue"
            },
        }
    }
}

Databricks Propriedades da atividade de trabalho

A tabela a seguir descreve as propriedades JSON usadas na definição JSON:

Propriedade Descrição Obrigatório
nome Nome da atividade no fluxo de trabalho. Sim
descrição Texto que descreve o que a atividade faz. Não
tipo Para Databricks Job Activity, o tipo de atividade é DatabricksJob. Sim
nomeDoServiçoVinculado Nome do Serviço Vinculado Databricks no qual o trabalho Databricks é executado. Para saber mais sobre esse serviço vinculado, consulte o artigo Serviços vinculados de computação. Sim
jobId O ID do trabalho que será executado no espaço de trabalho Databricks. Sim
parâmetros de trabalho Uma matriz de pares Chave-Valor. Os parâmetros de trabalho podem ser usados para cada atividade executada. Se o trabalho usar um parâmetro que não é especificado, o valor padrão do trabalho será usado. Saiba mais sobre parâmetros em Databricks Jobs. Não

Passando parâmetros entre trabalhos e pipelines

Você pode passar parâmetros para trabalhos usando a propriedade jobParameters na atividade Databricks.

Observação

Os parâmetros de trabalho só são suportados no IR auto-hospedado versão 5.52.0.0 ou superior.