Capturer des données à partir d’Event Hubs au format Delta Lake

Cet article explique comment utiliser l’éditeur sans code pour capturer automatiquement les données de streaming dans Event Hubs vers un compte Azure Data Lake Storage Gen2 au format Delta Lake.

Prérequis

  • Vous devez rendre vos ressources Azure Event Hubs et Azure Data Lake Storage Gen2 accessibles publiquement. Ne les placez pas derrière un pare-feu ou sécurisez-les dans un Réseau virtuel Azure.
  • Vous devez sérialiser les données dans votre Event Hubs au format JSON, CSV ou Avro.

Configurer une tâche pour capturer des données

Procédez comme suit pour configurer un travail Stream Analytics pour capturer des données dans Azure Data Lake Storage Gen2.

  1. Dans le portail Azure, accédez à votre hub d’événements.

  2. Sélectionnez Fonctionnalités>Traiter les données, puis sélectionnez Démarrer sur la carte Capturer des données dans ADLS Gen2 au format Delta Lake.
    Capture d’écran montrant les cartes de démarrage des données Process Event Hubs.

    Vous pouvez également sélectionner Fonctionnalités>Capture, et sélectionner l’option Delta Lake sous le format de sérialisation des événements de sortie. Ensuite, sélectionnez Démarrer la configuration de la capture de données. Capture d’écran montrant le point d’entrée de la création de la capture des données.

  3. Entrez un nom pour identifier votre travail Stream Analytics. Sélectionnez Create (Créer).
    Capture d’écran montrant la fenêtre Nouveau travail Stream Analytics dans laquelle vous entrez le nom du travail.

  4. Spécifiez le type de Sérialisation de vos données dans Event Hubs et la méthode d’authentification que la tâche utilise pour se connecter aux Event Hubs. Sélectionnez Connecter. Capture d’écran montrant la configuration de la connexion à Event Hubs.

  5. Une fois la connexion établie, vous pouvez voir :

    • Champs présents dans les données d’entrée. Vous pouvez choisir Ajouter un champ ou sélectionner le symbole trois points en regard d’un champ pour éventuellement supprimer, renommer ou modifier son nom.
    • Exemple dynamique de données entrantes dans la table d’aperçu des données sous la vue diagramme. Il s’actualise à intervalles réguliers. Vous pouvez sélectionner Suspendre la préversion de streaming pour afficher une vue statique des exemples de données d’entrée.
      Capture d’écran montrant des exemples de données sous Aperçu des données.
  6. Sélectionnez la vignette Azure Data Lake Storage Gen2 pour modifier la configuration.

  7. Dans la page de configuration Azure Data Lake Storage Gen2, effectuez ces étapes :

    1. Sélectionnez l’abonnement, le nom du compte de stockage et le conteneur dans le menu déroulant.

    2. Après avoir sélectionné l’abonnement, la méthode d’authentification et la clé de compte de stockage sont automatiquement renseignées.

    3. Pour Delta table path, spécifiez l’emplacement et le nom de votre table Delta Lake stockée dans Azure Data Lake Storage Gen2. Vous pouvez choisir d’utiliser un ou plusieurs segments de chemin pour définir le chemin d’accès à la table Delta et le nom de celle-ci. Pour plus d’informations, consultez Écrire dans une table Delta Lake.

    4. Sélectionnez Se connecter.

      Première capture d’écran montrant la fenêtre Objet blob dans laquelle vous modifiez la configuration de la connexion d’un objet blob.

  8. Une fois la connexion établie, vous pouvez voir les champs présents dans les données de sortie.

  9. Sélectionnez Enregistrer dans la barre de commandes pour enregistrer votre configuration.

  10. Sélectionnez Démarrer dans la barre de commandes pour démarrer le flux de streaming et capturer des données. Ensuite, dans la fenêtre Démarrer le travail Stream Analytics :

    1. Sélectionnez l’heure de début de sortie.
    2. Sélectionnez le nombre d’unités de streaming (SU) avec laquelle le travail s’exécute. Les SU représentent les ressources de calcul allouées pour exécuter un travail Stream Analytics. Pour plus d’informations, voir Unités de streaming dans Azure Stream Analytics.
      Capture d’écran montrant la fenêtre Démarrer le travail Stream Analytics dans laquelle vous définissez l’heure de début de la sortie, les unités de streaming et la gestion des erreurs.
  11. Une fois que vous avez sélectionné Démarrer, le travail commence à s’exécuter dans les deux minutes et les métriques s’ouvrent dans la section onglet, comme illustré dans l’image suivante. Capture d’écran montrant le graphique de métriques.

  12. Vous pouvez voir le nouveau travail sous l’onglet Travaux Stream Analytics . Capture d’écran montrant le lien Ouvrir les métriques sélectionné.

Vérifier la sortie

Vérifiez que les fichiers parquet au format Delta Lake sont générés dans le conteneur Azure Data Lake Storage.

Capture d’écran montrant les fichiers Parquet générés dans le conteneur ADLS (Azure Data Lake Storage).

Considérations relatives à l'utilisation de la fonctionnalité de réplication géographique d'Event Hubs

Azure Event Hubs a récemment lancé la fonctionnalité Geo-Replication en préversion publique. Cette fonctionnalité est différente de la fonctionnalité récupération d’urgence géo d’Azure Event Hubs.

Lorsque le type de basculement est Forcé et que la cohérence de la réplication est Asynchrone, le travail Stream Analytics ne garantit pas exactement une sortie vers une sortie Azure Event Hubs.

Azure Stream Analytics, comme producteur avec un hub d’événements en tant que sortie, peut observer un retard de filigrane dans le processus pendant la durée de basculement et lors des restrictions imposées par Event Hubs si la latence de réplication entre le serveur principal et le serveur secondaire atteint la limite maximale configurée.

Azure Stream Analytics, comme consommateur avec Event Hubs en tant qu’entrée, peut constater un retard de filigrane dans le traitement lors de la période de basculement et peut ignorer des données ou constater des données dupliquées une fois le basculement terminé.

En raison de ces mises en garde, redémarrez le travail Stream Analytics avec l’heure de début appropriée juste après la fin du basculement d’Event Hubs. En outre, étant donné que la fonctionnalité de géoréplication Event Hubs est en préversion publique, n’utilisez pas ce modèle pour les travaux Stream Analytics de production à ce stade. Le comportement actuel de Stream Analytics sera amélioré avant que la fonctionnalité de géo-réplication d’Event Hubs soit généralement disponible et puisse être utilisée dans les travaux de production de Stream Analytics.

Étapes suivantes

Maintenant, vous savez comment utiliser l’éditeur no code Stream Analytics pour créer un travail qui capture les données Event Hubs dans Azure Data Lake Storage Gen2 au format Delta Lake. Ensuite, vous pouvez en savoir plus sur Azure Stream Analytics et comment surveiller le travail que vous avez créé.