Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
APLICA-SE A:
Azure Data Factory
Azure Synapse Analytics
Gorjeta
Data Factory em Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA incorporada e novas funcionalidades. Se és novo na integração de dados, começa pelo Fabric Data Factory. As cargas de trabalho existentes do ADF podem atualizar para o Fabric para aceder a novas capacidades em ciência de dados, análise em tempo real e relatórios.
A Atividade de Streaming HDInsight num pipeline do Azure Data Factory ou Synapse Analytics executa programas de Hadoop Streaming no seu próprio cluster HDInsight ou sob demanda. Este artigo baseia-se no artigo de atividades de transformação de dados, que apresenta uma visão geral da transformação de dados e das atividades de transformação suportadas.
Para saber mais, leia os artigos introdutórios para Azure Data Factory e Synapse Analytics e faça o Tutorial: transform data antes de ler este artigo.
Adicionar uma atividade de Streaming do HDInsight a um pipeline com a interface do usuário
Para usar uma atividade de Streaming do HDInsight em um pipeline, conclua as seguintes etapas:
Pesquise Streaming no painel Atividades do pipeline e arraste uma atividade de Streaming para a tela do pipeline.
Selecione a nova atividade de streaming na tela se ela ainda não estiver selecionada.
Selecione a guia Cluster HDI para selecionar ou criar um novo serviço ligado a um cluster HDInsight que será utilizado para executar a atividade de Streaming.
Selecione o separador File para especificar os nomes do mapeador e do redutor para o seu trabalho de streaming, e selecione ou crie um novo serviço ligado a uma conta do Armazenamento do Azure que irá armazenar os ficheiros do mapeador, redutor, entrada e saída do trabalho. Você também pode configurar detalhes avançados, incluindo configuração de depuração, argumentos e parâmetros a serem passados para a tarefa.
Exemplo de JSON
{
"name": "Streaming Activity",
"description": "Description",
"type": "HDInsightStreaming",
"linkedServiceName": {
"referenceName": "MyHDInsightLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"mapper": "MyMapper.exe",
"reducer": "MyReducer.exe",
"combiner": "MyCombiner.exe",
"fileLinkedService": {
"referenceName": "MyAzureStorageLinkedService",
"type": "LinkedServiceReference"
},
"filePaths": [
"<containername>/example/apps/MyMapper.exe",
"<containername>/example/apps/MyReducer.exe",
"<containername>/example/apps/MyCombiner.exe"
],
"input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
"output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
"commandEnvironment": [
"CmdEnvVarName=CmdEnvVarValue"
],
"getDebugInfo": "Failure",
"arguments": [
"SampleHadoopJobArgument1"
],
"defines": {
"param1": "param1Value"
}
}
}
Detalhes da sintaxe
| Propriedade | Descrição | Obrigatório |
|---|---|---|
| nome | Nome da atividade | Sim |
| descrição | Texto que descreve para que serve a atividade | Não |
| tipo | Para Hadoop Streaming Activity, o tipo de atividade é HDInsightStreaming | Sim |
| nome do serviço ligado | Referência ao cluster HDInsight registrado como um serviço vinculado. Para saber mais sobre esse serviço vinculado, consulte o artigo Serviços vinculados de computação. | Sim |
| mapeador | Especifica o nome do executável do mapeador | Sim |
| redutor | Especifica o nome do executável redutor | Sim |
| combinador | Especifica o nome do ficheiro executável do combinador | Não |
| fileLinkedService | Referência a um Armazenamento do Azure Linked Service usado para armazenar os programas Mapper, Combiner e Reducer a serem executados. Apenas os serviços ligados Armazenamento de Blobs do Azure e ADLS Gen2 são suportados aqui. Se não especificar este Serviço Ligado, é utilizado o Serviço Ligado do Armazenamento do Azure definido no Serviço Ligado HDInsight. | Não |
| filePath | Forneça um array de caminhos para os programas Mapper, Combiner e Reducer armazenados no Armazenamento do Azure referido pelo fileLinkedService. O caminho é sensível a maiúsculas e minúsculas. | Sim |
| dados introduzidos | Especifica o caminho WASB para o ficheiro de entrada do Mapeador. | Sim |
| saída | Especifica o caminho WASB para o ficheiro de saída do Redutor. | Sim |
| getDebugInfo | Especifica quando os ficheiros de registo são copiados para o Armazenamento do Azure usado pelo cluster HDInsight (ou) especificado pelo scriptLinkedService. Valores permitidos: Nenhum, Sempre ou Falha. Valor padrão: Nenhum. | Não |
| Argumentos | Especifica uma matriz de argumentos para um trabalho Hadoop. Os argumentos são passados como argumentos de linha de comando para cada tarefa. | Não |
| define | Especifique parâmetros como pares chave/valor para referência dentro do script Hive. | Não |
Conteúdos relacionados
Consulte os seguintes artigos que explicam como transformar dados de outras maneiras: