Escenario de un extremo a otro de Data Factory: introducción y arquitectura

Este tutorial le guía a través de un escenario de integración de datos completo en aproximadamente una hora. Aprenderá las funcionalidades clave de Data Factory en Microsoft Fabric y cómo aplicarlas a flujos de trabajo de datos comunes.

Lo que vas a construir

Este tutorial incluye una introducción y tres módulos:

Data Factory en Microsoft Fabric

Microsoft Fabric es una plataforma de análisis unificada que cubre el movimiento de datos, lagos de datos, ingeniería de datos, integración de datos, ciencia de datos, análisis en tiempo real e inteligencia empresarial. No es necesario unir servicios de varios proveedores.

Data Factory en Fabric combina la facilidad de uso de Power Query con la escala de Azure Data Factory. Ofrece preparación de datos habilitada para inteligencia artificial, transformación a escala de petabyte y cientos de conectores con conectividad híbrida y multinube, todo ello con bajo código.

Características clave

Data Factory proporciona tres funcionalidades principales para sus necesidades de integración de datos:

  • Ingesta de datos con trabajo de copia: un trabajo de copia es el punto de partida recomendado para la ingesta de datos. Mueve los datos a escala de petabyte de cientos de orígenes de datos a Lakehouse, con compatibilidad nativa para la copia masiva, incremental y basada en CDC, sin necesidad de crear una canalización.
  • Transformación de datos: Dataflow Gen2 proporciona una interfaz de poco código para transformar los datos con más de 300 transformaciones. Puede cargar resultados en varios destinos, como Azure SQL Database, Lakehouse, etc.
  • Automatización de un extremo a otro: las canalizaciones orquestan actividades como trabajo de copia, flujos de datos, cuadernos y más. Encadene las actividades para ejecutarse secuencialmente o en paralelo. Supervise todo el flujo de integración de datos en un solo lugar.

Arquitectura del tutorial

Explorará las tres características clave a medida que complete un escenario de integración de datos de un extremo a otro.

El escenario incluye tres módulos:

  1. Ingesta de datos con un trabajo de copia: cree un trabajo de copia independiente para ingerir datos sin procesar de Blob Storage en una tabla de bronce en una instancia de Lakehouse.
  2. Transformar datos con un flujo de datos: procese los datos sin procesar de su tabla bronze y muévelos a una tabla gold.
  3. Orquestar y automatizar con una canalización: cree una canalización para organizar el flujo de datos y el trabajo de copia, enviar una notificación por correo electrónico y programar todo el flujo.

Diagrama que muestra el flujo de datos y los módulos descritos en este tutorial.

En este tutorial se usa el conjunto de datos de ejemplo NYC-Taxi . Cuando termine, puede analizar los descuentos diarios en tarifas de taxi durante un período de tiempo específico mediante Data Factory en Microsoft Fabric.

Paso siguiente