Cenário completo do Data Factory: introdução e arquitetura

Este tutorial guia-o por um cenário completo de integração de dados em cerca de uma hora. Vai aprender as principais capacidades do Data Factory no Microsoft Fabric e como aplicá-las a fluxos de trabalho de dados comuns.

O que vais construir

Este tutorial inclui uma introdução e três módulos:

Data Factory no Microsoft Fabric

Microsoft Fabric é uma plataforma unificada de análise que cobre movimentação de dados, data lakes, engenharia de dados, integração de dados, ciência de dados, análise em tempo real e inteligência de negócios. Não precisa de juntar serviços de vários fornecedores.

Data Factory em Fabric combina a facilidade de utilização de Power Query com a escala de Azure Data Factory. Oferece preparação de dados low-code com suporte de IA, transformação em escala de petabytes e centenas de conectores com conectividade híbrida e multinuvem.

Principais características

O Data Factory oferece três capacidades essenciais para as suas necessidades de integração de dados:

  • Ingestão de dados com trabalho de Cópia: Um trabalho de Cópia é o ponto de partida recomendado para a ingestão de dados. Ele move dados à escala de petabytes de centenas de fontes de dados para o seu Lakehouse, com suporte nativo para cópia em massa, incremental e baseada em CDC – sem necessidade de construir um pipeline.
  • Transformação de dados: A Dataflow Gen2 fornece uma interface low-code para transformar os seus dados com 300+ transformações. Podes carregar resultados em vários destinos como Azure SQL Database, Lakehouse e outros.
  • Automação de ponta a ponta: Os pipelines orquestram atividades incluindo trabalho de cópia, fluxo de dados, caderno e mais. Encadear atividades para executar sequencialmente ou em paralelo. Monitorize todo o seu fluxo de integração de dados num só local.

Arquitetura tutorial

Irá explorar as três funcionalidades principais ao completar um cenário de integração de dados de ponta a ponta.

O cenário inclui três módulos:

  1. Ingerir dados com um trabalho de Cópia: Crie um trabalho de Cópia autónomo para ingerir dados brutos do armazenamento Blob numa tabela bronze na Lakehouse.
  2. Transforma dados com um fluxo de dados: Processa os dados brutos da tua tabela bronze e move-os para uma tabela de ouro .
  3. Orquestre e automatize com um pipeline: Crie um pipeline para orquestrar o trabalho de Copiar e o fluxo de dados, enviar uma notificação por email e agendar todo o processo.

Diagrama que mostra o fluxo de dados e os módulos abordados neste tutorial.

Este tutorial utiliza o conjunto de dados de amostras NYC-Taxi . Quando terminar, pode analisar descontos diários nas tarifas de táxi para um período específico usando o Data Factory no Microsoft Fabric.

Próximo passo