Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Este tutorial le guía a través de un escenario de integración de datos completo en aproximadamente una hora. Aprenderá las funcionalidades clave de Data Factory en Microsoft Fabric y cómo aplicarlas a flujos de trabajo de datos comunes.
Lo que vas a construir
Este tutorial incluye una introducción y tres módulos:
- Módulo 1: Ingesta de datos con un trabajo de copia: Crear un trabajo de copia independiente para ingerir datos sin procesar de Blob Storage en una tabla de bronce en una instancia de Lakehouse.
- Módulo 2: Transformar datos con un flujo de datos: procese los datos sin procesar desde su tabla bronze y trasládelos a una tabla gold en el Lakehouse.
- Módulo 3: Orquestar y automatizar con una canalización: cree una canalización para orquestar el flujo de datos y el trabajo de copia, envíe una notificación por correo electrónico cuando se completen los trabajos y programe todo el flujo.
Data Factory en Microsoft Fabric
Microsoft Fabric es una plataforma de análisis unificada que cubre el movimiento de datos, lagos de datos, ingeniería de datos, integración de datos, ciencia de datos, análisis en tiempo real e inteligencia empresarial. No es necesario unir servicios de varios proveedores.
Data Factory en Fabric combina la facilidad de uso de Power Query con la escala de Azure Data Factory. Ofrece preparación de datos habilitada para inteligencia artificial, transformación a escala de petabyte y cientos de conectores con conectividad híbrida y multinube, todo ello con bajo código.
Características clave
Data Factory proporciona tres funcionalidades principales para sus necesidades de integración de datos:
- Ingesta de datos con trabajo de copia: un trabajo de copia es el punto de partida recomendado para la ingesta de datos. Mueve los datos a escala de petabyte de cientos de orígenes de datos a Lakehouse, con compatibilidad nativa para la copia masiva, incremental y basada en CDC, sin necesidad de crear una canalización.
- Transformación de datos: Dataflow Gen2 proporciona una interfaz de poco código para transformar los datos con más de 300 transformaciones. Puede cargar resultados en varios destinos, como Azure SQL Database, Lakehouse, etc.
- Automatización de un extremo a otro: las canalizaciones orquestan actividades como trabajo de copia, flujos de datos, cuadernos y más. Encadene las actividades para ejecutarse secuencialmente o en paralelo. Supervise todo el flujo de integración de datos en un solo lugar.
Arquitectura del tutorial
Explorará las tres características clave a medida que complete un escenario de integración de datos de un extremo a otro.
El escenario incluye tres módulos:
- Ingesta de datos con un trabajo de copia: cree un trabajo de copia independiente para ingerir datos sin procesar de Blob Storage en una tabla de bronce en una instancia de Lakehouse.
- Transformar datos con un flujo de datos: procese los datos sin procesar de su tabla bronze y muévelos a una tabla gold.
- Orquestar y automatizar con una canalización: cree una canalización para organizar el flujo de datos y el trabajo de copia, enviar una notificación por correo electrónico y programar todo el flujo.
En este tutorial se usa el conjunto de datos de ejemplo NYC-Taxi . Cuando termine, puede analizar los descuentos diarios en tarifas de taxi durante un período de tiempo específico mediante Data Factory en Microsoft Fabric.