Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Este tutorial guia-o por um cenário completo de integração de dados em cerca de uma hora. Vai aprender as principais capacidades do Data Factory no Microsoft Fabric e como aplicá-las a fluxos de trabalho de dados comuns.
O que vais construir
Este tutorial inclui uma introdução e três módulos:
- Módulo 1 - Ingerir dados com um trabalho de Cópia: Criar um trabalho de Cópia autónomo para ingerir dados brutos do armazenamento Blob para uma tabela bronze num Lakehouse.
- Módulo 2 - Transformar dados com um fluxo de dados: Processar dados brutos da sua tabela de bronze e movê-los para uma tabela dourada na Casa do Lago.
- Módulo 3 - Orquestar e automatizar com um pipeline: Criar um pipeline para orquestrar o job Copy e o fluxo de dados, enviar uma notificação por email quando os jobs estiverem concluídos e agendar todo o fluxo.
Data Factory no Microsoft Fabric
Microsoft Fabric é uma plataforma unificada de análise que cobre movimentação de dados, data lakes, engenharia de dados, integração de dados, ciência de dados, análise em tempo real e inteligência de negócios. Não precisa de juntar serviços de vários fornecedores.
Data Factory em Fabric combina a facilidade de utilização de Power Query com a escala de Azure Data Factory. Oferece preparação de dados low-code com suporte de IA, transformação em escala de petabytes e centenas de conectores com conectividade híbrida e multinuvem.
Principais características
O Data Factory oferece três capacidades essenciais para as suas necessidades de integração de dados:
- Ingestão de dados com trabalho de Cópia: Um trabalho de Cópia é o ponto de partida recomendado para a ingestão de dados. Ele move dados à escala de petabytes de centenas de fontes de dados para o seu Lakehouse, com suporte nativo para cópia em massa, incremental e baseada em CDC – sem necessidade de construir um pipeline.
- Transformação de dados: A Dataflow Gen2 fornece uma interface low-code para transformar os seus dados com 300+ transformações. Podes carregar resultados em vários destinos como Azure SQL Database, Lakehouse e outros.
- Automação de ponta a ponta: Os pipelines orquestram atividades incluindo trabalho de cópia, fluxo de dados, caderno e mais. Encadear atividades para executar sequencialmente ou em paralelo. Monitorize todo o seu fluxo de integração de dados num só local.
Arquitetura tutorial
Irá explorar as três funcionalidades principais ao completar um cenário de integração de dados de ponta a ponta.
O cenário inclui três módulos:
- Ingerir dados com um trabalho de Cópia: Crie um trabalho de Cópia autónomo para ingerir dados brutos do armazenamento Blob numa tabela bronze na Lakehouse.
- Transforma dados com um fluxo de dados: Processa os dados brutos da tua tabela bronze e move-os para uma tabela de ouro .
- Orquestre e automatize com um pipeline: Crie um pipeline para orquestrar o trabalho de Copiar e o fluxo de dados, enviar uma notificação por email e agendar todo o processo.
Este tutorial utiliza o conjunto de dados de amostras NYC-Taxi . Quando terminar, pode analisar descontos diários nas tarifas de táxi para um período específico usando o Data Factory no Microsoft Fabric.