Partilhar via


Transforme os dados no Azure Data Factory e no Azure Synapse Analytics

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Data Factory em Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA incorporada e novas funcionalidades. Se és novo na integração de dados, começa pelo Fabric Data Factory. As cargas de trabalho existentes do ADF podem atualizar para o Fabric para aceder a novas capacidades em ciência de dados, análise em tempo real e relatórios.

Importante

O suporte ao Azure Machine Learning Studio (clássico) terminará a 31 de agosto de 2024. Recomendamos que faça a transição para Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não pode criar novos recursos do Machine Learning Studio (clássico) (plano de espaço de trabalho e web service). Até 31 de agosto de 2024, pode continuar a utilizar os experimentos e serviços web já existentes do Machine Learning Studio (classic). Para obter mais informações, consulte:

A documentação do Machine Learning Studio (classic) está a ser retirada e pode não ser atualizada no futuro.

Descrição geral

Este artigo explica as atividades de transformação de dados nos pipelines Azure Data Factory e Synapse que pode usar para transformar e processar os seus dados brutos em previsões e insights em grande escala. Uma atividade de transformação é executada num ambiente informático como o Azure Databricks ou o Azure HDInsight. Ele fornece links para artigos com informações detalhadas sobre cada atividade de transformação.

O serviço suporta as seguintes atividades de transformação de dados que podem ser adicionadas a pipelines individualmente ou encadeadas com outra atividade.

Transformar nativamente no Azure Data Factory e no Azure Synapse Analytics com fluxos de dados

Mapeamento de fluxos de dados

Fluxos de dados de mapeamento são transformações de dados visualmente concebidas no Azure Data Factory e no Azure Synapse. Os fluxos de dados permitem que os engenheiros de dados desenvolvam lógica gráfica de transformação de dados sem escrever código. Os fluxos de dados resultantes são executados como atividades dentro de pipelines que usam clusters Spark expandidos. As atividades de fluxo de dados podem ser operacionalizadas por meio dos recursos existentes de agendamento, controle, fluxo e monitoramento dentro do serviço. Para obter mais informações, consulte Mapeando fluxos de dados.

Manipulação de dados

O Power Query no Azure Data Factory permite a organização de dados à escala da nuvem, o que permite fazer preparação de dados sem código à escala da nuvem de forma iterativa. A data wrangling integra-se com Power Query Online e disponibiliza funções M do Power Query para data wrangling em escala de nuvem através da execução Spark. Para mais informações, consulte transformação de dados no Azure Data Factory.

Nota

O Power Query é atualmente suportado apenas no Azure Data Factory, e não no Azure Synapse. Para uma lista de funcionalidades específicas suportadas em cada serviço, veja Funcionalidades disponíveis em Azure Data Factory & Azure Synapse Analytics pipelines.

Transformações externas

Opcionalmente, você pode codificar manualmente transformações e gerenciar o ambiente de computação externo por conta própria.

Atividade do HDInsight Hive

A atividade Hive do HDInsight num fluxo de trabalho executa consultas Hive no seu próprio cluster ou no cluster HDInsight sob demanda baseado em Windows/Linux. Consulte o artigo de atividade do Hive para obter detalhes sobre essa atividade.

Atividade do HDInsight Pig

A atividade HDInsight Pig num pipeline executa consultas Pig no seu próprio cluster (ou em clusters baseados em Windows/Linux a pedido) do HDInsight. Consulte o artigo Atividade do porco para obter detalhes sobre essa atividade.

Atividade do HDInsight MapReduce

A atividade HDInsight MapReduce num pipeline executa programas MapReduce no seu próprio cluster ou no cluster HDInsight baseado em Windows/Linux a pedido. Consulte o artigo da atividade MapReduce para obter detalhes sobre essa atividade.

Atividade de streaming do HDInsight

Num pipeline, a atividade HDInsight Streaming executa programas Hadoop Streaming no seu próprio cluster HDInsight ou num cluster HDInsight baseado em Windows/Linux a pedido. Consulte Atividade de streaming do HDInsight para obter detalhes sobre essa atividade.

Atividade do HDInsight Spark

A atividade HDInsight Spark num pipeline executa programas Spark no seu próprio cluster HDInsight. Para obter mais informações, consulte Invocar programas Spark com Azure Data Factory ou Azure Synapse Analytics.

Atividades ML Studio (clássico)

Importante

O suporte ao Azure Machine Learning Studio (clássico) terminará a 31 de agosto de 2024. Recomendamos que faça a transição para Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não pode criar novos recursos do Machine Learning Studio (clássico) (plano de espaço de trabalho e web service). Até 31 de agosto de 2024, pode continuar a utilizar os experimentos e serviços web já existentes do Machine Learning Studio (classic). Para obter mais informações, consulte:

A documentação do Machine Learning Studio (classic) está a ser retirada e pode não ser atualizada no futuro.

O serviço permite criar facilmente pipelines que utilizam um serviço web do ML Studio (clássico) publicado para análise preditiva. Usando a atividade Execução em lote numa pipeline, pode invocar um serviço web do Studio (clássico) para fazer previsões nos dados em lote.

Com o tempo, os modelos preditivos nos experimentos de pontuação do Studio (clássicos) precisam ser retreinados usando novos conjuntos de dados de entrada. Depois de concluir o retreinamento, você deseja atualizar o serviço Web de pontuação com o modelo de aprendizado de máquina retreinado. Você pode usar a atividade Atualizar Recurso para atualizar o serviço web com o modelo recém-treinado.

Consulte Usar as atividades do ML Studio (clássico) para obter detalhes sobre essas atividades do Studio (clássico).

Atividade de procedimento armazenado

Pode usar a atividade Procedimento Armazenado do SQL Server numa pipeline do Data Factory para invocar um procedimento armazenado numa das seguintes stores de dados: o Base de Dados SQL do Azure, o Azure Synapse Analytics, a Base de Dados SQL Server na sua empresa ou numa VM do Azure. Consulte o artigo Atividade de Procedimento Armazenado para obter detalhes.

Atividade U-SQL do Data Lake Analytics

A atividade U-SQL do Data Lake Analytics executa um script U-SQL num cluster Azure Data Lake Analytics. Consulte o artigo de atividade U-SQL do Data Analytics para obter detalhes.

Azure Synapse Notebook Atividade

A atividade Azure Synapse Notebook num pipeline do Synapse executa um notebook do Synapse no seu workspace Azure Synapse. Veja Transformar dados executando um Azure Synapse notebook.

Atividade do Databricks Notebook

A Azure Databricks Notebook Activity num pipeline executa um notebook Databricks no seu espaço de trabalho Azure Databricks. Azure Databricks é uma plataforma gerida para executar o Apache Spark. Veja Transformar dados executando um notebook Databricks.

Atividade do Databricks Jar

A Azure Databricks Jar Activity num pipeline executa um Spark Jar no teu cluster Azure Databricks. Azure Databricks é uma plataforma gerida para executar o Apache Spark. Veja Transformar dados executando uma atividade Jar em Azure Databricks.

Atividade Python do Databricks

A atividade Python do Azure Databricks em uma linha de execução executa um ficheiro Python no seu cluster Azure Databricks. Azure Databricks é uma plataforma gerida para executar o Apache Spark. Veja Transformar dados executando uma atividade de Python em Azure Databricks.

Atividade personalizada

Se você precisar transformar dados de uma forma que não seja suportada pelo Data Factory, poderá criar uma atividade personalizada com sua própria lógica de processamento de dados e usar a atividade no pipeline. Pode configurar a atividade .NET personalizada para correr usando um serviço Azure Batch ou um cluster Azure HDInsight. Consulte o artigo Usar atividades personalizadas para obter detalhes.

Pode criar uma atividade personalizada para executar scripts R no seu cluster do HDInsight com R instalado. Veja Executar Script R usando pipelines do Azure Data Factory e do Synapse.

Ambientes de computação

Você cria um serviço vinculado para o ambiente de computação e, em seguida, usa o serviço vinculado ao definir uma atividade de transformação. Existem dois tipos suportados de ambientes de computação.

  • On-Demand: Neste caso, o ambiente de computação é totalmente gerenciado pelo serviço. Ele é criado automaticamente pelo serviço antes de um trabalho ser enviado para processar dados e removido quando o trabalho é concluído. Você pode configurar e controlar configurações granulares do ambiente de computação sob demanda para execução de tarefas, gerenciamento de cluster e ações de inicialização.
  • Traga o seu: nesse caso, você pode registrar seu próprio ambiente de computação (por exemplo, cluster HDInsight) como um serviço vinculado. O ambiente de computação é gerenciado por você e o serviço o usa para executar as atividades.

Consulte o artigo Compute Linked Services para saber mais sobre os serviços de computação suportados.

Consulte o tutorial a seguir para obter um exemplo de como usar uma atividade de transformação: Tutorial: transformar dados usando o Spark