Compartilhar via


Transformar dados usando a atividade do Hive do Hadoop no Azure Data Factory ou no Synapse Analytics

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Data Factory no Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA interna e novos recursos. Se você não estiver familiarizado com a integração de dados, comece com Fabric Data Factory. As cargas de trabalho existentes do ADF podem ser atualizadas para Fabric para acessar novos recursos em ciência de dados, análise em tempo real e relatórios.

A atividade do Hive no HDInsight em um pipeline do Azure Data Factory ou do Synapse Analytics executa consultas do Hive em um cluster do HDInsight próprio ou sob demanda. Este artigo se baseia no artigo sobre atividades de transformação de dados que apresenta uma visão geral da transformação de dados e as atividades de transformação permitidas.

Se você não estiver familiarizado com o Azure Data Factory e o Synapse Analytics, leia os artigos de introdução para Azure Data Factory ou Synapse Analytics e faça o Tutorial: transformar dados antes de ler este artigo.

Adicionar uma atividade Hive do HDInsight a um pipeline usando a interface do usuário

Para usar uma atividade do Hive do HDInsight no Azure Data Lake Analytics em um pipeline, conclua as seguintes etapas:

  1. Procure Hive no painel Atividades do pipeline e arraste uma atividade Hive para a tela do pipeline.

  2. Selecione a nova atividade Hive na tela se ela ainda não estiver selecionada.

  3. Selecione a guia Cluster HDI para selecionar ou criar um serviço vinculado a um cluster HDInsight que será usado para executar a atividade do Hive.

    Mostra a interface do usuário para uma atividade do Hive.

  4. Selecione a guia Script para selecionar ou criar um serviço vinculado de armazenamento e um caminho dentro do local de armazenamento que hospedará o script.

    Mostra a interface do usuário da guia Script para uma atividade do Hive.

Sintaxe

{
    "name": "Hive Activity",
    "description": "description",
    "type": "HDInsightHive",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveScript.hql",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Detalhes da sintaxe

Propriedade Descrição Obrigatório
nome Nome da atividade Sim
descrição Texto que descreve qual a utilidade da atividade Não
tipo Para a atividade do Hive, o tipo de atividade é HDinsightHive Sim
nomeDoServiçoVinculado Referência ao cluster HDInsight registrado como um serviço vinculado. Para saber mais sobre esse serviço vinculado, consulte o artigo Compute linked services (Serviços de computação vinculados). Sim
scriptLinkedService Referência a um serviço vinculado Armazenamento do Azure usado para armazenar o script do Hive a ser executado. Apenas há suporte para Armazenamento de Blobs do Azure e ADLS Gen2 serviços associados aqui. Se você não especificar esse Serviço Vinculado, o serviço vinculado Armazenamento do Azure definido no Serviço Vinculado do HDInsight será usado. Não
scriptPath Forneça o caminho para o arquivo de script armazenado no Armazenamento do Azure referenciado por scriptLinkedService. O nome do arquivo diferencia maiúsculas de minúsculas. Sim
getDebugInfo Especifica quando os arquivos de log são copiados para o Armazenamento do Azure usado pelo cluster HDInsight (ou) especificado pelo scriptLinkedService. Valores permitidos: Nenhum, Sempre ou Falha. Valor padrão: Nenhum. Não
argumentos Especifica uma matriz de argumentos para um trabalho do Hadoop. Os argumentos são passados como argumentos de linha de comando para cada tarefa. Não
defines Especifique parâmetros como pares chave-valor para referências no script do Hive. Não
queryTimeout Consultar o valor do tempo limite (em minutos). Aplicável quando o cluster do HDInsight está com o Pacote de Segurança Empresarial habilitado. Não

Observação

O valor padrão do queryTimeout é 120 minutos.

Consulte os seguintes artigos que explicam como transformar dados de outras maneiras: