Partilhar via


Transformar dados usando atividade de streaming Hadoop no Azure Data Factory ou Synapse Analytics

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Data Factory em Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA incorporada e novas funcionalidades. Se és novo na integração de dados, começa pelo Fabric Data Factory. As cargas de trabalho existentes do ADF podem atualizar para o Fabric para aceder a novas capacidades em ciência de dados, análise em tempo real e relatórios.

A Atividade de Streaming HDInsight num pipeline do Azure Data Factory ou Synapse Analytics executa programas de Hadoop Streaming no seu próprio cluster HDInsight ou sob demanda. Este artigo baseia-se no artigo de atividades de transformação de dados, que apresenta uma visão geral da transformação de dados e das atividades de transformação suportadas.

Para saber mais, leia os artigos introdutórios para Azure Data Factory e Synapse Analytics e faça o Tutorial: transform data antes de ler este artigo.

Adicionar uma atividade de Streaming do HDInsight a um pipeline com a interface do usuário

Para usar uma atividade de Streaming do HDInsight em um pipeline, conclua as seguintes etapas:

  1. Pesquise Streaming no painel Atividades do pipeline e arraste uma atividade de Streaming para a tela do pipeline.

  2. Selecione a nova atividade de streaming na tela se ela ainda não estiver selecionada.

  3. Selecione a guia Cluster HDI para selecionar ou criar um novo serviço ligado a um cluster HDInsight que será utilizado para executar a atividade de Streaming.

    Mostra a interface do usuário de uma atividade de Streaming.

  4. Selecione o separador File para especificar os nomes do mapeador e do redutor para o seu trabalho de streaming, e selecione ou crie um novo serviço ligado a uma conta do Armazenamento do Azure que irá armazenar os ficheiros do mapeador, redutor, entrada e saída do trabalho. Você também pode configurar detalhes avançados, incluindo configuração de depuração, argumentos e parâmetros a serem passados para a tarefa.

    Mostra a interface do separador Arquivo para uma atividade de streaming.

Exemplo de JSON

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Detalhes da sintaxe

Propriedade Descrição Obrigatório
nome Nome da atividade Sim
descrição Texto que descreve para que serve a atividade Não
tipo Para Hadoop Streaming Activity, o tipo de atividade é HDInsightStreaming Sim
nome do serviço ligado Referência ao cluster HDInsight registrado como um serviço vinculado. Para saber mais sobre esse serviço vinculado, consulte o artigo Serviços vinculados de computação. Sim
mapeador Especifica o nome do executável do mapeador Sim
redutor Especifica o nome do executável redutor Sim
combinador Especifica o nome do ficheiro executável do combinador Não
fileLinkedService Referência a um Armazenamento do Azure Linked Service usado para armazenar os programas Mapper, Combiner e Reducer a serem executados. Apenas os serviços ligados Armazenamento de Blobs do Azure e ADLS Gen2 são suportados aqui. Se não especificar este Serviço Ligado, é utilizado o Serviço Ligado do Armazenamento do Azure definido no Serviço Ligado HDInsight. Não
filePath Forneça um array de caminhos para os programas Mapper, Combiner e Reducer armazenados no Armazenamento do Azure referido pelo fileLinkedService. O caminho é sensível a maiúsculas e minúsculas. Sim
dados introduzidos Especifica o caminho WASB para o ficheiro de entrada do Mapeador. Sim
saída Especifica o caminho WASB para o ficheiro de saída do Redutor. Sim
getDebugInfo Especifica quando os ficheiros de registo são copiados para o Armazenamento do Azure usado pelo cluster HDInsight (ou) especificado pelo scriptLinkedService. Valores permitidos: Nenhum, Sempre ou Falha. Valor padrão: Nenhum. Não
Argumentos Especifica uma matriz de argumentos para um trabalho Hadoop. Os argumentos são passados como argumentos de linha de comando para cada tarefa. Não
define Especifique parâmetros como pares chave/valor para referência dentro do script Hive. Não

Consulte os seguintes artigos que explicam como transformar dados de outras maneiras: