Guide de décision Microsoft Fabric : Choisir une stratégie de déplacement des données

Microsoft Fabric offre plusieurs façons d’importer des données dans la plateforme. Ce guide vous donne une recommandation claire pour les scénarios les plus courants, puis fournit des comparaisons détaillées de fonctionnalités lorsque vous devez approfondir.

Recommandation rapide : Quelle option de déplacement de données dois-je utiliser ?

Utilisez l’architecture de médaillon comme guide :

  • Données Gold (rapports et analyses sur les données traitées) : utilisez la mise en miroir. Si vous avez déjà un traitement ETL ailleurs et que vous avez principalement besoin d’apporter des données organisées dans Fabric pour la création de rapports, la mise en miroir est le choix le plus simple et le plus économique. Il est gratuit, nécessite une configuration minimale et réplique en continu vos données dans OneLake.

  • Données bronze (ingestion brute) : commencez par Copy job. Lorsque vous ingérez des données brutes, vous aurez rapidement besoin de transformations, de mappage de schémas, de contrôle de planification et de chargement progressif. Le travail de copie vous offre ces fonctionnalités nativement sans la complexité de construire des chaînes de traitement.

  • Données de streaming en temps réel : utilisez eventstreams. Pour une faible latence, l’ingestion et le traitement pilotés par les événements, Eventstreams fournit des pipelines en temps réel avec des transformations sans code et un routage vers plusieurs destinations.

  • Orchestration complexe : les pipelines vous donnent la flexibilité d’orchestration dont vous avez besoin, et les activités de copie dans les pipelines offrent un paramétrage d’objet de données et l’ingestion des données pilotées par les métadonnées. Sinon, l'activité de tâche de copie et l'activité de copie sont comparables dans un pipeline.

Pour obtenir une répartition complète des fonctionnalités et des fonctionnalités prises en charge, consultez la comparaison détaillée des fonctionnalités.

Capture d’écran d’un arbre de décision de stratégie de déplacement de données, comparaison de la mise en miroir, du flux d’événements, du travail de copie et de l’activité de copie.

Concepts clés

  • La mise en miroir vous offre un moyen simple et gratuit de mettre en miroir les données opérationnelles dans Fabric pour l’analytique. Il est optimisé pour faciliter l’utilisation avec une configuration minimale et effectue ses écritures vers une seule destination en lecture seule dans OneLake.

  • Les activités de copie dans Pipelines sont conçues pour les utilisateurs qui ont besoin de flux de travail d’ingestion de données orchestrés et basés sur des pipelines. Vous pouvez le personnaliser de manière étendue et ajouter une logique de transformation, mais vous devez définir et gérer vous-même des composants de pipeline, y compris le suivi de l’état de la dernière exécution pour la copie incrémentielle.

  • La fonction Copie de tâches facilite l’ingestion des données grâce à la prise en charge native des multiples styles de livraison, notamment la copie en bloc, la copie incrémentielle et la réplication de capture de données de modification (CDC), et vous n’avez pas besoin de construire des pipelines, tout en vous donnant accès à de nombreuses options avancées. Il prend en charge de nombreuses sources et destinations, et fonctionne bien lorsque vous souhaitez plus de contrôle que la mise en miroir, mais moins complexe que la gestion des pipelines avec l’activité de copie.

  • Flux d’événements : conçu pour l’ingestion, la transformation et le traitement en temps réel des données de streaming. Prend en charge les pipelines à faible latence, la gestion des schémas et le routage vers des destinations telles que Eventhouse, Lakehouse, Activator et des points de terminaison personnalisés prenant en charge AMQP, Kafka et HTTP.

Comparaison détaillée des fonctionnalités

Les tableaux suivants comparent les fonctionnalités complètes de chaque option de déplacement de données. Utilisez cette section lorsque vous devez évaluer des fonctionnalités spécifiques pour votre scénario.

Miroir Tâche de copie Activité de copie (pipeline) Flux d’événements
Sources Bases de données + intégration tierce à Open Mirroring Toutes les sources et formats de données pris en charge Toutes les sources et formats de données pris en charge Plus de 25 sources et tous les formats
Destinations Format tabulaire dans Fabric OneLake (lecture seule) Toutes les destinations et formats pris en charge Toutes les destinations et formats pris en charge 4 plus destinations
Flexibilité Configuration simple avec un comportement fixe Options plus faciles à utiliser + Options avancées Options avancées et entièrement personnalisables Options simples et personnalisables
Capacité Miroir Tâche de copie Activité de copie (pipeline) Flux d’événements
Planification personnalisée Oui Oui Continu
Gestion des tables et des colonnes Oui Oui Oui (schéma, gestion des événements et des champs)
Comportement de copie : Append, Upsert, Override Oui Oui Append
Observabilité avancée + audit Oui Oui
Modes de copie
Réplication continue basée sur CDC Oui Oui Oui
Traitement par lots ou copie en bloc Oui Oui Oui (réplication initiale de l'instantané CDC)
Prise en charge native de la copie incrémentielle (basée sur un filigrane) Oui
Copier à l’aide d’une requête définie par l’utilisateur Oui Oui
Cas d’utilisation
Réplication continue pour l’analytique et la création de rapports Oui Oui Oui
ELT/ETL piloté par les métadonnées pour l’entreposage de données Oui Oui
Consolidation des données Oui Oui Oui
Migration de données / Sauvegarde de données / Partage de données Oui Oui Oui
Gratuit Oui
Performances prévisibles Oui Oui Oui

Scénarios

Passez en revue ces scénarios pour vous aider à choisir la stratégie de déplacement des données qui convient le mieux à vos besoins.

Scénario 1

James est directeur financier d’une compagnie d’assurance. Son équipe utilise Azure SQL Database pour suivre les données de stratégie, les revendications et les informations client sur plusieurs unités commerciales. L’équipe de direction souhaite créer des tableaux de bord en temps réel pour la surveillance des performances de l’entreprise, mais James ne peut pas autoriser les requêtes analytiques à ralentir les systèmes opérationnels qui traitent des milliers de transactions quotidiennes.

James a déjà un traitement ETL en place, et son équipe a besoin des données de niveau or traitées disponibles dans Fabric pour la création de rapports exécutifs. Il ne souhaite pas gérer la planification, configurer les chargements incrémentiels ou se préoccuper de la sélection des tables - il a besoin que tout soit automatiquement mis en miroir. Dans la mesure où cela concerne uniquement la création de rapports, l’utilisation des données dans un format en lecture seule dans OneLake fonctionne parfaitement. La solution doit également être rentable, car elle sort du budget de son ministère.

James choisit la mise en miroir. La mise en miroir assure la réplication continue basée sur CDC dont il a besoin, en gérant automatiquement toutes les tables sans configuration supplémentaire. La configuration simple signifie qu’il n’a pas besoin d’expertise technique, et le coût gratuit correspond à son budget. Le format tabulaire en lecture seule dans OneLake donne à son équipe l’accès analytique dont ils ont besoin sans affecter les performances opérationnelles.

Scénario 2

Lisa est analyste d’entreprise dans une entreprise logistique. Elle doit ingérer des données d’expédition brutes de plusieurs bases de données Snowflake dans des tables Fabric Lakehouse pour l’analyse de la chaîne d’approvisionnement. Les données incluent des enregistrements historiques pour la charge initiale et les nouvelles expéditions qui arrivent tout au long de la journée. Lisa souhaite exécuter ce processus selon une planification personnalisée , toutes les 4 heures pendant les heures d’ouverture.

Étant donné que Lisa apporte des données brutes de niveau bronze, elle sait qu’elle aura rapidement besoin de transformations, de mappage de schémas et de contrôle de planification. Elle doit sélectionner des tables spécifiques à partir de chaque instance Snowflake, mapper des colonnes à des noms standardisés et utiliser le comportement upsert pour gérer les mises à jour des enregistrements d’expédition existants. Elle souhaite également une surveillance avancée pour suivre la qualité des données et les performances de traitement.

Lisa sélectionne Copier la tâche. La tâche de copie fournit la planification personnalisée dont elle a besoin, prend en charge toutes les sources de données, y compris Snowflake, et offre les fonctionnalités de gestion de table et de colonne pour sa configuration multi-régionale. La prise en charge native de la copie incrémentielle avec détection basée sur des filigranes et le comportement upsert lui permet de gérer ces exigences sans développer de pipelines.

Scénario 3

David est ingénieur de données senior chez une entreprise de télécommunications. Il crée un flux de travail d’ingestion de données complexe qui doit extraire des données d’utilisation des clients à partir d’Oracle à l’aide de requêtes SQL personnalisées, appliquer des transformations métier et les charger dans plusieurs destinations, notamment Fabric Warehouse et les systèmes externes. Le flux de travail doit également être coordonné avec d’autres activités de pipeline telles que la validation des données et les étapes de notification.

David a besoin d’un contrôle total sur le processus de copie, notamment la possibilité d’utiliser des requêtes définies par l’utilisateur pour joindre des tables et filtrer des données à la source. Il a besoin d’options de configuration avancées et entièrement personnalisables, de performances prévisibles pour les volumes de données volumineux et de la possibilité d’intégrer le processus de copie dans des workflows d’orchestration de pipeline plus larges avec les dépendances et la gestion des erreurs.

David passe en revue les options disponibles et choisit Les activités de copie dans les pipelines. Cette approche lui donne la configuration avancée et entièrement personnalisable dont il a besoin, prend en charge les requêtes définies par l’utilisateur pour l’extraction de données complexes et fournit l’orchestration basée sur le pipeline requise pour son workflow. Les fonctionnalités avancées de supervision et d’audit lui permettent de suivre le processus complexe, tandis que l’infrastructure de pipeline lui permet de coordonner les activités de copie avec d’autres étapes de traitement des données.

Scénario 4

Ash est un chef de produit d’une entreprise de télécommunications. Son équipe doit surveiller les métriques de support client telles que les volumes d’appels, les temps d’attente et les performances de l’agent, en temps réel pour garantir la conformité du contrat SLA et améliorer la satisfaction des clients. Les données proviennent de plusieurs systèmes opérationnels, notamment des plateformes CRM, des journaux d’activité du centre d’appels et des bases de données d’affectation d’agent, et arrivent à une fréquence élevée tout au long de la journée.

Ash utilise Fabric Eventstreams pour ingérer et transformer ces données en mouvement. Elle configure les connecteurs de diffusion en continu pour extraire des données de différentes sources, applique des transformations à l’aide de l’expérience sans code et route les événements traités vers Eventhouse pour l’analytique en temps réel. Elle intègre l’activateur de données pour déclencher des alertes et des flux de travail automatisés lorsque des seuils sla sont enfreints afin qu’elle puisse envoyer des notifications aux superviseurs ou ajuster dynamiquement les niveaux de dotation.

Le résultat est un tableau de bord en temps réel qui se met à jour en quelques secondes, ce qui donne à l’équipe Ash une visibilité sur les métriques de performances actives et permet des décisions rapides et pilotées par les données. Cette architecture de diffusion en continu élimine la latence des pipelines par lots et permet à l’entreprise de répondre instantanément aux besoins des clients.

Get started

Maintenant que vous avez une idée de la stratégie de déplacement des données à utiliser, vous pouvez commencer à utiliser ces ressources :