Ajouter Azure SQL Database comme source de la capture des changements de données (CDC) dans le hub en temps réel

Cet article explique comment obtenir des événements depuis la capture des changements de données (CDC) de la base de données Azure SQL dans le hub Fabric en temps réel.

Le connecteur source CDC Azure SQL Database pour les flux d'événements Microsoft Fabric permet de saisir un instantané des données actuelles dans une base de données Azure SQL. Le connecteur surveille et enregistre ensuite les modifications futures au niveau des lignes apportées à ces données. Une fois les modifications capturées dans le Eventstreams, vous pouvez traiter ces données CDC en temps réel et les envoyer à différentes destinations au sein de Fabric pour un traitement ou une analyse plus approfondis.

Remarque

Avec DeltaFlow (Aperçu), vous pouvez transformer des événements de capture de données modifiées bruts de Debezium en flux prêts pour l'analytique qui reflètent la structure de votre table source. DeltaFlow automatise l’inscription de schéma, la gestion des tables de destination et la gestion de l’évolution des schémas. Pour utiliser DeltaFlow, choisissez les événements prêts pour l’analytique et le schéma mis à jour automatiquement pendant l’étape de gestion du schéma.

Prérequis

  • Accès à un espace de travail en mode de licence de capacité Fabric ou en mode de licence d'évaluation avec des autorisations Contributeur ou supérieures.
  • Un serveur Azure SQL en cours d’exécution avec une base de données Azure SQL.
  • Votre base de données Azure SQL doit être accessible publiquement et ne doit pas se trouver derrière un pare-feu ou sécurisé dans un réseau virtuel. S’il réside dans un réseau protégé, connectez-vous à celui-ci à l’aide de l’injection de réseau virtuel du connecteur Eventstream.
  • La CDC est activée dans votre base de données Azure SQL en exécutant la procédure stockée sys.sp_cdc_enable_db. Pour plus d’informations, consultez Activation et désactivation de la capture des changements de données.

Remarque

N’activez pas la mise en miroir dans votre base de données Azure SQL.

Activer la CDC dans votre base de données Azure SQL

  1. Accédez au portail Azure, ouvrez votre base de données Azure SQL et sélectionnez Éditeur de requête. Choisissez une méthode d’authentification pour vous connecter.

    Une capture d’écran de l’ouverture de la base de données Azure SQL.

  2. Exécutez les commandes SQL suivantes pour activer la capture des changements de données dans votre base de données :

    -- Enable Database for CDC
    EXEC sys.sp_cdc_enable_db;
    
    -- Enable CDC for a table using a gating role option
    EXEC sys.sp_cdc_enable_table
        @source_schema = N'dbo',
        @source_name   = N'MyTable',
        @role_name     = NULL
    GO
    

Page Sources de données

  1. Connectez-vous à Microsoft Fabric.

  2. Si vous voyez Power BI en bas à gauche de la page, basculez vers la charge de travail Fabric en sélectionnant Power BI, puis en sélectionnant Fabric.

    Capture d’écran montrant comment basculer vers la charge de travail Fabric.

  3. Sélectionnez En temps réel dans la barre de navigation gauche.

    Capture d’écran montrant comment lancer l’expérience se connecter à la source de données.

  4. La page de données de streaming s’ouvre par défaut. Cliquez sur le bouton Ajouter des données pour accéder à la page Sources de données .

    Capture d’écran montrant la page Sources de données dans le hub Real-Time.

    Vous pouvez également accéder directement à la page Sources de données en sélectionnant l’option Ajouter des données dans la barre de navigation de gauche.

    Capture d’écran montrant le bouton Connecter la source de données.

  1. Dans la page Sources de données, sélectionnez la catégorie Sources Microsoft en haut, puis sélectionnez Se connecter dans la vignette Azure SQL DB (CDC).

    Capture d’écran montrant la sélection d’Azure SQL Database (CDC) comme type de source dans la page Sources de données.

    Suivez les instructions de la section Connexion à une source CDC de Azure SQL Database.

Se connecter à une source de capture des changements de données dans Azure SQL Database

Ingérer des données modifiées à partir de bases de données Azure SQL avec l’inscription automatique des schémas de table via CDC dans Eventstream.

Remarque

DeltaFlow (préversion) : lorsque vous sélectionnez des événements prêts pour l’analytique et un schéma mis à jour automatiquement à l’étape de gestion des schémas, DeltaFlow transforme les événements CDC bruts de Debezium en flux prêts pour l’analytique qui reflètent votre structure de table source. DeltaFlow automatise également la création de tables de destination et la gestion de l’évolution du schéma.

  1. Sur la page Connecter, sélectionnez Nouvelle connexion.

    Capture d’écran montrant la page Se connecter de l’Assistant Obtenir des événements avec le lien Nouvelle connexion mis en surbrillance.

  2. Dans la section paramètres de connexion, saisissez les valeurs suivantes pour votre base de données Azure SQL :

    • Serveur : Saisissez le nom du serveur Azure SQL à partir du portail Azure. C’est sous cette forme : mysqlservername.database.windows.net.

    • Base de données : saisissez le nom de la base de données Azure SQL à partir du portail Azure.

      Capture d’écran montrant la section Paramètres de connexion de la page Nouvelle connexion.

  3. Faites défiler vers le bas et, dans la section Identifiants de connexion, suivez les étapes suivantes :

    • Dans le champ Nom de la connexion, saisissez un nom pour la connexion.

    • Pour le type d’authentification, sélectionnez De base.

      Remarque

      Actuellement, Fabric Eventstream prend uniquement en charge l’authentification de base .

    • Entrez le nom d'utilisateur et le mot de passe de la base de données.

  4. Sélectionnez Connecter.

    Capture d’écran montrant la section Identifiants de connexion de la page Nouvelle connexion.

  5. À présent, dans la page Connexion , sélectionnez Toutes les tables ou Entrez le ou les noms de table. Si vous sélectionnez ce dernier, spécifiez des tables à l’aide d’une liste séparée par des virgules d’identificateurs de table complets (schemaName.tableName) ou d’expressions régulières valides. Par exemple:

    • Permet dbo.test.* de sélectionner toutes les tables dont les noms commencent par dbo.test.
    • Permet dbo\.(test1|test2) de sélectionner dbo.test1 et dbo.test2.

    Vous pouvez combiner les deux formats à l’aide de virgules. La limite de caractères totale de l’entrée entière est de 102 400 caractères.

  6. Vous pouvez dérouler les paramètres avancés pour accéder à d’autres options de configuration pour la source CDC Azure SQL Database :

    • Mode de gestion des décimales : définit la façon dont le connecteur gère les valeurs des colonnes et DECIMAL.
      • Precise: représente des valeurs utilisant des types décimaux exacts (par exemple, Java BigDecimal) pour garantir une précision et une précision complètes dans la représentation des données.
      • Double: convertit les valeurs en nombres à virgule flottante de double précision. Ce paramètre améliore la facilité d’utilisation et les performances, mais peut entraîner une perte de précision.
      • String: encode les valeurs sous forme de chaînes mises en forme. Ce paramètre facilite l’utilisation dans les systèmes en aval, mais perd des informations sémantiques sur le type numérique d’origine.
    • Mode instantané : spécifiez les critères d’exécution d’un instantané au démarrage du connecteur :
      • Initial: le connecteur exécute un instantané uniquement lorsqu’aucun décalage n’a été enregistré pour le nom du serveur logique, ou s’il détecte qu’un instantané antérieur n’a pas pu être terminé. Une fois l’instantané terminé, le connecteur commence à diffuser en continu les enregistrements d’événements pour les modifications de base de données suivantes.
      • InitialOnly: le connecteur exécute un instantané uniquement quand aucun décalage n’a été enregistré pour le nom du serveur logique. Une fois que l’instantané est terminé, le connecteur s’arrête. Il ne passe pas en mode streaming pour lire les événements de modification du binlog.
      • NoData: le connecteur exécute un instantané qui capture uniquement le schéma, mais pas les données de table. Définissez cette option si vous n'avez pas besoin d'un instantané cohérent des données, mais que vous avez uniquement besoin des modifications depuis le démarrage du connecteur.
    • Liste d’exclusion de colonnes : spécifie les colonnes à exclure des valeurs des événements de modification en utilisant des noms complets (schemaName.tableName.columnName).
    • Intent d'application de base de données: détermine le comportement de routage dans les groupes de disponibilité Always On de SQL Server :
      • ReadWrite: se connecte au réplica principal. Utilisez cette option si la connexion doit effectuer des opérations de lecture et d’écriture.
      • ReadOnly: permet le routage vers un réplica secondaire lisible pour des opérations en lecture seule. Utilisez-le pour activer la Change Data Capture directement sur les réplicas. Il est nécessaire de configurer snapshot.isolation.mode sur snapshot, qui est le seul mode d'isolation de transactions pris en charge pour les réplicas en lecture seule.
    • Remplacement de l'instruction SELECT pour l'instantané : utilisez la propriété si vous souhaitez qu’un instantané inclut uniquement un sous-ensemble des lignes d’une table. Cette propriété affecte uniquement les instantanés. Cela ne s’applique pas aux événements que le connecteur lit dans le journal.

Flux ou détails de la source

  1. Dans la page Se connecter , suivez l’une de ces étapes en fonction de l’utilisation d’Eventstream ou de Real-Time hub.

    • Flux d’événements :

      Dans le volet Détails de la source à droite, procédez comme suit :

      1. Pour le nom de la source, sélectionnez l'icône du crayon pour modifier le nom.

      2. Notez que le nom eventstream et le nom stream sont en lecture seule.

    • Hub en temps réel :

      Dans la section Détails du flux à droite, procédez comme suit :

      1. Sélectionnez l’espace de travail Fabric dans lequel vous souhaitez créer le flux d’événements.

      2. Pour le flux d'événements, sélectionnez le bouton Crayon et entrez un nom pour le flux d'événements.

      3. La valeur du nom du flux est générée automatiquement pour vous en ajoutant -stream au nom de l’événementstream. Ce flux s’affiche sur la page Tous les flux de données du hub en temps réel une fois que l’Assistant est terminé.

  2. Sélectionnez Suivant en bas de la page Configurer .

Vérifier et se connecter

Dans l’écran Vérifier + se connecter , passez en revue le résumé, puis sélectionnez Ajouter (Eventstream) ou Se connecter (Real-Time hub).

Page Gestion des schémas

  1. Dans la page gestion des schémas , choisissez l’une des options suivantes :

    • Événements prêts à l’analytique et schéma mis à jour automatiquement (préversion DeltaFlow) : le connecteur transforme les événements CDC bruts en flux prêts pour l’analytique qui reflètent la structure de votre table source. DeltaFlow enrichit les événements avec des métadonnées telles que le type de modification (insertion, mise à jour ou suppression) et les horodatages, et gère automatiquement les tables de destination et l’évolution du schéma.
    • Événements CDC bruts : le connecteur ingère et rend disponibles les événements CDC bruts. Si vous le souhaitez, le connecteur peut découvrir automatiquement des schémas de table et les inscrire dans le registre de schémas. Utilisez cette option lorsque vous souhaitez connaître le schéma sans transformation DeltaFlow.

    Remarque

    La capture d’écran suivante montre Azure SQL Database CDC. Les options de gestion des schémas sont identiques pour tous les connecteurs sources CDC pris en charge.

    Capture d’écran montrant l’étape de gestion de schéma avec les options d’événement DeltaFlow et CDC brutes d’un connecteur source CDC.

  2. Activer l’association de schéma d’événement.

  3. Pour Workspace, sélectionnez un espace de travail Fabric pour le jeu de schémas.

  4. Pour le jeu de schémas, + Créer est sélectionné par défaut, ce qui crée un jeu de schémas. Vous pouvez le modifier pour sélectionner un jeu de schémas d’événements existant.

  5. Si vous avez sélectionné l’option + Créer à l’étape précédente, entrez un nom pour le jeu de schémas.

  6. Dans la page Vérifier + se connecter , sélectionnez Ajouter (Eventstream) ou Se connecter (Real-Time hub).

    Capture d’écran montrant la page révision + connexion pour la source CDC Azure SQL Database.

    Pour toutes les tables ou tables sélectionnées dans la base de données Azure SQL, le connecteur se détecte automatiquement et crée des schémas et les inscrit auprès du registre de schémas.

  7. Sélectionnez le nœud eventstream au milieu, puis basculez vers l’onglet Schémas associés dans le volet inférieur.

    Capture d’écran montrant la fenêtre de schéma associé dans le volet inférieur.

Jeu de schémas

  1. Accédez à l’espace de travail que vous avez sélectionné à l’étape précédente. Dans l’exemple suivant, il s’agit de Mon espace de travail.

  2. Sélectionnez le jeu de schémas créé par le connecteur Azure SQL Database (CDC).

    Capture d’écran montrant le jeu de schémas généré dans la page Mon espace de travail.

  3. Vous voyez les schémas dans le jeu de schémas, comme illustré dans l’image suivante.

    Capture d’écran montrant les schémas dans le jeu de schémas généré.

  4. Pour afficher la version JSON du schéma, basculez vers la vue de schéma JSON .

    Capture d’écran montrant la vue de schéma JSON.

    Ne modifiez pas ces schémas découverts à l’aide de cet éditeur, car il devient nonconfirmant avec le schéma des tables dans la source de base de données Azure SQL.

DeltaFlow : transformation d'événements prête pour l'analyse (aperçu)

Lorsque vous activez les événements prêts pour l’analytique et le schéma mis à jour automatiquement (DeltaFlow), le connecteur fournit les fonctionnalités suivantes :

  • Forme d’événement prête pour l’analytique : les événements bruts de capture de données modifiées de Debezium sont transformés en un format tabulaire qui reflète la structure de la table source. Les événements sont enrichis avec des colonnes de métadonnées, notamment le type de modification (insert, updateou delete) et l’horodatage des événements.

  • Gestion automatique des tables de destination : lorsque vous routez des flux deltaFlow vers une destination prise en charge comme un eventhouse, les tables de destination sont automatiquement créées pour correspondre au schéma de table source. Vous n’avez pas besoin de créer ou de configurer manuellement des tables de destination.

  • Gestion de l’évolution du schéma : lorsque les tables de base de données sources changent (par exemple, les nouvelles colonnes sont ajoutées ou des tables sont créées), DeltaFlow détecte automatiquement les modifications, met à jour les schémas inscrits et ajuste les tables de destination en conséquence. Cette option réduit l’intervention manuelle causée par les modifications de schéma.

    Capture d’écran montrant les tables de destination Eventhouse dans une forme prête pour l’analytique créée par DeltaFlow.

Remarque

DeltaFlow (préversion) est actuellement pris en charge avec Azure SQL Database CDC, Azure SQL Managed Instance CDC, SQL Server sur VM CDC et les connecteurs sources PostgreSQL CDC.

Pour plus d’informations sur la façon dont DeltaFlow transforme les événements CDC bruts en sortie prête pour l’analytique, y compris les types d’opérations et les colonnes de métadonnées, consultez la transformation de sortie DeltaFlow.

Afficher les détails du flux de données

  1. Dans la page Vérifier + se connecter, si vous sélectionnez Ouvrir un flux d’événements, l’assistant ouvre le flux d’événements qu’il a créé pour vous avec la capture des changements de données Azure SQL Database sélectionnée en tant que source. Pour fermer l’assistant, sélectionnez Terminer en bas de la page.

    Capture d’écran montrant la page Vérifier + se connecter après la création réussie de la source.

  2. Vous devez voir le flux dans la section Données de streaming récentes de la page d’accueil du hubReal-Time . Pour obtenir des étapes détaillées, consultez Afficher les détails des flux de données dans le hub En temps réel de Fabric.

Pour en savoir plus sur l’utilisation de flux de données, consultez les articles suivants :