Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
APLICA-SE A:
Azure Data Factory
Azure Synapse Analytics
Sugestão
Data Factory em Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA incorporada e novas funcionalidades. Se és novo na integração de dados, começa pelo Fabric Data Factory. As cargas de trabalho existentes do ADF podem atualizar para o Fabric para aceder a novas capacidades em ciência de dados, análise em tempo real e relatórios.
A atividade de trabalho do Azure Databricks num pipeline executa trabalhos do Databricks no seu espaço de trabalho do Azure Databricks, incluindo trabalhos sem servidor. Este artigo baseia-se no artigo de atividades de transformação de dados, que apresenta uma visão geral da transformação de dados e das atividades de transformação suportadas. Azure Databricks é uma plataforma gerida para executar o Apache Spark.
Pode criar um trabalho Databricks diretamente através da interface do Azure Data Factory Studio.
Adicionar uma atividade de Job para Azure Databricks ao pipeline com Interface de Utilizador
Para usar uma atividade de Job para Azure Databricks num pipeline, complete os seguintes passos:
Pesquise por Job no painel Atividades do pipeline e arraste uma atividade de Job para o canvas do pipeline.
Selecione a nova atividade Trabalho na tela, se ainda não estiver selecionada.
Selecione o separador Azure Databricks para selecionar ou criar um novo serviço Azure Databricks ligado.
Observação
A atividade do Azure Databricks Job corre automaticamente em clusters serverless, por isso não precisa de especificar um cluster na configuração do seu serviço ligado. Em vez disso, escolha a opção Serverless .
Selecione o separador Settings e especifique o trabalho a executar no Azure Databricks, parâmetros base opcionais a passar ao trabalho e quaisquer outras bibliotecas a instalar no cluster para executar o trabalho.
Databricks Definição de atividade de trabalho
Aqui está a definição JSON de exemplo de uma atividade de trabalho Databricks:
{
"activity": {
"name": "MyActivity",
"description": "MyActivity description",
"type": "DatabricksJob",
"linkedServiceName": {
"referenceName": "MyDatabricksLinkedservice",
"type": "LinkedServiceReference"
},
"typeProperties": {
"jobID": "012345678910112",
"jobParameters": {
"testParameter": "testValue"
},
}
}
}
Databricks Propriedades da atividade de trabalho
A tabela a seguir descreve as propriedades JSON usadas na definição JSON:
| Propriedade | Descrição | Obrigatório |
|---|---|---|
| nome | Nome da atividade no fluxo de trabalho. | Sim |
| descrição | Texto que descreve o que a atividade faz. | Não |
| tipo | Para Databricks Job Activity, o tipo de atividade é DatabricksJob. | Sim |
| nomeDoServiçoVinculado | Nome do Serviço Vinculado Databricks no qual o trabalho Databricks é executado. Para saber mais sobre esse serviço vinculado, consulte o artigo Serviços vinculados de computação. | Sim |
| jobId | O ID do trabalho que será executado no espaço de trabalho Databricks. | Sim |
| parâmetros de trabalho | Uma matriz de pares Chave-Valor. Os parâmetros de trabalho podem ser usados para cada atividade executada. Se o trabalho usar um parâmetro que não é especificado, o valor padrão do trabalho será usado. Saiba mais sobre parâmetros em Databricks Jobs. | Não |
Passando parâmetros entre trabalhos e pipelines
Você pode passar parâmetros para trabalhos usando a propriedade jobParameters na atividade Databricks.
Observação
Os parâmetros de trabalho só são suportados no IR auto-hospedado versão 5.52.0.0 ou superior.