Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Ce tutoriel vous guide tout au long d’un scénario d’intégration de données complet dans environ une heure. Vous allez découvrir les principales fonctionnalités de Data Factory dans Microsoft Fabric et comment les appliquer à des flux de travail de données courants.
Ce que vous allez construire
Ce tutoriel comprend une introduction et trois modules :
- Module 1 - Ingérer des données avec un travail de copie : créez un travail de copie autonome pour ingérer des données brutes à partir du stockage Blob dans une table bronze dans un Lakehouse.
- Module 2 - Transformer des données avec un dataflow : traitez les données brutes de votre table bronze et déplacez-les vers une table d’or dans le Lakehouse.
- Module 3 - Orchestrer et automatiser avec un pipeline : créez un pipeline pour orchestrer le travail de copie et le flux de données, envoyez une notification par e-mail lorsque les travaux sont terminés et planifiez l’intégralité du flux.
Data Factory dans Microsoft Fabric
Microsoft Fabric est une plateforme d’analytique unifiée qui couvre le déplacement des données, les lacs de données, l’ingénierie des données, l’intégration des données, la science des données, l’analytique en temps réel et la décisionnel. Vous n’avez pas besoin de regrouper les services de plusieurs fournisseurs.
Data Factory dans Fabric combine la facilité d’utilisation de Power Query avec l’échelle de Azure Data Factory. Il offre une préparation des données à faible code, une préparation des données compatible avec l’IA, une transformation à l’échelle pétaoctet et des centaines de connecteurs avec une connectivité hybride et multicloud.
Fonctionnalités clés
Data Factory offre trois fonctionnalités principales pour vos besoins d’intégration des données :
- Ingestion de données avec travail de copie : un travail de copie est le point de départ recommandé pour l’ingestion de données. Il déplace des données à l'échelle pétaoctet à partir de centaines de sources de données dans votre Lakehouse, avec une prise en charge native de la copie en bloc, incrémentielle et basée sur CDC, sans avoir besoin de créer un pipeline.
- Transformation des données : Dataflow Gen2 fournit une interface à faible code pour transformer vos données avec des transformations de 300+. Vous pouvez charger des résultats dans plusieurs destinations telles que Azure SQL Database, Lakehouse, etc.
- Automatisation de bout en bout : les pipelines orchestrent les activités, notamment la copie de travail, le flux de données, le notebook, etc. Chaînez des activités pour s’exécuter séquentiellement ou en parallèle. Surveillez l’ensemble de votre flux d’intégration de données à un seul endroit.
Architecture du didacticiel
Vous allez explorer les trois principales fonctionnalités à mesure que vous effectuez un scénario d’intégration de données de bout en bout.
Le scénario comprend trois modules :
- Ingérer des données avec un travail de copie : créez un travail de copie autonome pour ingérer des données brutes à partir du stockage Blob dans une table bronze dans un Lakehouse.
- Transformez des données avec un dataflow : traitez les données brutes de votre table bronze et déplacez-les vers une table d’or .
- Orchestrez et automatisez avec un pipeline : créez un pipeline pour orchestrer le travail de copie et le flux de données, envoyer une notification par e-mail et planifier l’intégralité du flux.
Ce tutoriel utilise l’exemple de jeu de données NYC-Taxi . Lorsque vous avez terminé, vous pouvez analyser les remises quotidiennes sur les tarifs des taxis pendant une période spécifique à l’aide de Data Factory dans Microsoft Fabric.