Partilhar via


Transformar dados usando a atividade do Hadoop Pig no Azure Data Factory ou Synapse Analytics

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Data Factory em Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA incorporada e novas funcionalidades. Se és novo na integração de dados, começa pelo Fabric Data Factory. As cargas de trabalho existentes do ADF podem atualizar para o Fabric para aceder a novas capacidades em ciência de dados, análise em tempo real e relatórios.

A atividade do HDInsight Pig em um pipeline do Data Factory executa consultas do Pig por conta própria ou sob demanda do cluster HDInsight. Este artigo baseia-se no artigo de atividades de transformação de dados, que apresenta uma visão geral da transformação de dados e das atividades de transformação suportadas.

Para saber mais, leia a introdução a Azure Data Factory ou Synapse Analytics e faça o Tutorial: transformar dados antes de ler este artigo.

Adicionar uma atividade do HDInsight Pig a um pipeline com a interface do usuário

Para usar uma atividade do HDInsight Pig em um pipeline, conclua as seguintes etapas:

  1. Procure Pig no painel Atividades do pipeline e arraste uma atividade do Pig para a tela do pipeline.

  2. Selecione a nova atividade do Pig na tela, se ainda não estiver selecionada.

  3. Selecione a guia HDI Cluster para selecionar ou criar um novo serviço ligado a um cluster HDInsight que será usado para executar a atividade MapReduce.

    Mostra a interface de utilizador de uma atividade do Pig.

  4. Selecione o separador Script para selecionar ou criar um novo serviço ligado a um Armazenamento do Azure local onde o seu script será alojado. Especifique um nome de classe a ser executado lá e um caminho de arquivo dentro do local de armazenamento. Você também pode configurar detalhes avançados, incluindo configuração de depuração, além de argumentos e parâmetros a serem passados para o script.

    Mostra a interface do usuário da guia Script para uma atividade do Pig.

Sintaxe

{
    "name": "Pig Activity",
    "description": "description",
    "type": "HDInsightPig",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\PigScripts\\MyPigScript.pig",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }   
}

Detalhes da sintaxe

Propriedade Descrição Obrigatório
nome Nome da atividade Sim
descrição Texto que descreve para que serve a atividade Não
tipo Para Hive Activity, o tipo de atividade é HDinsightPig Sim
nome do serviço ligado Referência ao cluster HDInsight registrado como um serviço vinculado. Para saber mais sobre esse serviço vinculado, consulte o artigo Serviços vinculados de computação. Sim
scriptLinkedService Referência a um Serviço Vinculado do Armazenamento do Azure usado para armazenar o script Pig a ser executado. Apenas os serviços ligados Armazenamento de Blobs do Azure e ADLS Gen2 são suportados aqui. Se não especificar este Serviço Ligado, é utilizado o Serviço Ligado do Armazenamento do Azure definido no Serviço Ligado HDInsight. Não
scriptPath Forneça o caminho para o ficheiro de script armazenado no Armazenamento do Azure referido por scriptLinkedService. O nome do arquivo diferencia maiúsculas de minúsculas. Não
getDebugInfo Especifica quando os ficheiros de registo são copiados para o Armazenamento do Azure usado pelo cluster HDInsight (ou) especificado pelo scriptLinkedService. Valores permitidos: Nenhum, Sempre ou Falha. Valor padrão: Nenhum. Não
Argumentos Especifica uma matriz de argumentos para um trabalho Hadoop. Os argumentos são passados como argumentos de linha de comando para cada tarefa. Não
define Especifique parâmetros como pares chave/valor para referência dentro do script Pig. Não

Consulte os seguintes artigos que explicam como transformar dados de outras maneiras: