Transformar dados no Delta Lake usando fluxos de dados de mapeamento

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Data Factory no Microsoft Fabric é a próxima geração de Azure Data Factory, com uma arquitetura mais simples, IA interna e novos recursos. Se você não estiver familiarizado com a integração de dados, comece com Fabric Data Factory. As cargas de trabalho existentes do ADF podem ser atualizadas para Fabric para acessar novos recursos em ciência de dados, análise em tempo real e relatórios.

Se você não estiver familiarizado com Azure Data Factory, consulte Introduction para Azure Data Factory.

Neste tutorial, você usará a tela de fluxo de dados para criar fluxos de dados que permitem analisar e transformar dados no ADLS (Azure Data Lake Storage) Gen2 e armazená-los no Delta Lake.

Pré-requisitos

Assinatura do Azure. Se você não tiver uma assinatura Azure, crie uma conta de Azure free antes de começar.
conta de armazenamento do Azure. Você usa o armazenamento do ADLS como um armazenamento de dados de origem e do coletor. Se você não tiver uma conta de armazenamento, consulte Criar uma conta de armazenamento Azure para ver as etapas para criar uma.

O arquivo que estamos transformando nesse tutorial é MoviesDB.csv, que pode ser encontrado aqui. Para recuperar o arquivo de GitHub, copie o conteúdo para um editor de texto de sua escolha para salvar localmente como um arquivo .csv. Para carregar o arquivo em sua conta de armazenamento, consulte Upload blobs com o portal Azure. Os exemplos fazem referência a um contêiner chamado “dados de amostra”.

Criar uma fábrica de dados

Nesta etapa, você cria um data factory e abre a UX do Data Factory para criar um pipeline no data factory.

Abra Microsoft Edge ou Google Chrome. Atualmente, a interface do usuário do Data Factory tem suporte apenas nos navegadores da Web Microsoft Edge e do Google Chrome.
No menu à esquerda, escolha Criar um recurso>Integração>Data Factory
Na página Novo Fábrica de Dados, no campo Nome, insira ADFTutorialDataFactory
Selecione a assinatura do Azure na qual você deseja criar a fábrica de dados.
Em Grupo de Recursos, use uma das seguintes etapas:

a. Selecione Usar existente e selecione um grupo de recursos existente na lista suspensa.

b. Selecione Criar novoe insira o nome de um grupo de recursos.

Para saber mais sobre grupos de recursos, consulte Use grupos de recursos para gerenciar seus recursos Azure.
Em Versão, selecione V2.
Em Local, selecione uma localização para o Data Factory. Apenas os locais com suporte são exibidos na lista suspensa. Armazenamentos de dados (por exemplo, Armazenamento do Azure e Banco de Dados SQL) e computação (por exemplo, Azure HDInsight) usados pelo data factory podem estar em outras regiões.
Selecione Criar.
Depois que a criação for concluída, você verá o aviso no centro de notificações. Selecione Ir para o recurso para navegar até a página do Data Factory.
Clique em Criar & Monitorar para iniciar a IU do Azure Data Factory em uma guia separada.

Criar um pipeline com uma atividade de fluxo de dados

Nessa etapa, você cria um pipeline que contém uma atividade de fluxo de dados.

Na página inicial, selecione Orquestrar.
Na guia Geral do pipeline, insira DeltaLake como o Nome do pipeline.
No painel Atividades, expanda o acordeão Mover e Transformar. Arraste e solte a atividade de Fluxo de Dados do painel para a tela do pipeline.
Na barra superior da tela do pipeline, deslize o controle deslizante Depurar fluxo de dados. O modo de debug permite o teste interativo da lógica de transformação em um cluster Spark em execução. Fluxo de Dados clusters levam de 5 a 7 minutos para aquecer, e é recomendado que os usuários ativem a depuração antes, se planejam desenvolver no Fluxo de Dados. Para saber mais, consulte Modo de depuração.

Criar lógica de transformação na tela de fluxo de dados

Você gera dois fluxos de dados nesse tutorial. O primeiro fluxo de dados é uma fonte simples de afundamento para gerar um novo Delta Lake a partir do arquivo CSV de filmes. Por último, você cria o design de fluxo a seguir para atualizar dados no Delta Lake.

Fluxo final

Objetivos do tutorial

Use a fonte do conjunto de dados MoviesCSV dos pré-requisitos e forme um novo Delta Lake a partir dele.
Construa a lógica para atualizar as classificações de filmes de 1988 para '1'.
Exclua todos os filmes de 1950.
Insira novos filmes para 2021 duplicando os filmes de 1960.

Comece com um canvas de fluxo de dados em branco

Selecione a transformação de origem na parte superior da janela do editor de fluxo de dados e, em seguida, selecione + Novo ao lado da propriedade Conjunto de dados na janela Configurações de origem:
Selecione Azure Data Lake Storage Gen2 na janela New dataset exibida e selecione Continue.
Escolha DelimitedText para o tipo de conjunto de dados e selecione Continuar novamente.
Nomeie o conjunto de dados como “MoviesCSV” e selecione + Novo em Serviço vinculado para criar um novo serviço vinculado ao arquivo.
Forneça os detalhes da sua conta de armazenamento criada anteriormente na seção Pré-requisitos e navegue e selecione o arquivo MoviesCSV que você carregou lá.
Depois de adicionar o serviço vinculado, marque a caixa de seleção Primeira linha como cabeçalho e selecione OK para adicionar a origem.
Navegue até a guia Projeção da janela de configurações de fluxo de dados e selecione Detectar tipos de dados.
Agora selecione + após a Origem na janela do editor de fluxo de dados e role para baixo para selecionar Coletor na seção Destino, adicionando um novo coletor ao seu fluxo de dados.
Na guia Sink para as configurações do coletor que aparecem após a adição do coletor, selecione Inline para o Tipo de coletor e, em seguida, Delta para o Tipo de conjunto de dados Inline. Em seguida, selecione sua Azure Data Lake Storage Gen2 para o serviço Linked.
Escolha um nome de pasta em seu contêiner de armazenamento onde você gostaria que o serviço criasse o Delta Lake.
Por fim, retorne ao designer de pipeline e selecione Debug para executar o pipeline no modo de depuração, somente com esta atividade de fluxo de dados exibida na tela. Isso gera seu novo Delta Lake em Azure Data Lake Storage Gen2.
Agora, no menu Recursos de fábrica à esquerda da tela, selecione + para adicionar um novo recurso e, em seguida, selecione Fluxo de dados.
Como anteriormente, selecione o arquivo MoviesCSV novamente como fonte e selecione Detectar tipos de dados novamente na guia Projeção.
Dessa vez, depois de criar a origem, selecione + na janela do editor de fluxo de dados e adicione uma transformação de Filtro à sua origem.
Adicione uma condição Filtro em na janela Configurações de filtro que permite apenas linhas de filmes correspondentes a 1950, 1960 e 1988.
Agora adicione uma transformação de coluna derivada para atualizar as classificações de cada filme de 1988 para “1”.
Update, insert, delete, and upsert As políticas são criadas na transformação Alterar linha. Adicione uma transformação alterar linha após a coluna derivada.
As políticas de alteração de linha devem ter esta aparência.
Agora que você definiu a política adequada para cada tipo de alteração de linha, verifique se as regras de atualização adequadas foram definidas na transformação do coletor
Aqui estamos usando o coletor Delta Lake para o data lake do Azure Data Lake Storage Gen2 e permitindo inserções, atualizações e exclusões.
Observe que as colunas-chave são uma chave composta composto pela coluna de chave primária do filme e pela coluna do ano. Isso ocorre porque criamos filmes de 2021 fictícios duplicando as linhas de 1960. Isso evita conflitos ao pesquisar as linhas existentes fornecendo exclusividade.

Baixar o exemplo concluído

Aqui está um exemplo de solução para o pipeline Delta com um fluxo de dados para atualizar/excluir linhas no lago.

Saiba mais sobre a linguagem de expressão do fluxo de dados.

Comentários

Esta página foi útil?

Last updated on 2026-04-07