Déboguer des pipelines de fabrique de données
Les exigences et les attentes des clients changent en fonction de l’intégration de données. La nécessité pour les utilisateurs de développer et de déboguer leurs workflows d’extraction, transformation et chargement (ETL) et d’extraction, chargement et transformation (ELT) de façon itérative devient donc plus impérative.
Azure Data Factory peut vous aider à créer et à développer des pipelines de débogage itératif Data Factory quand vous développez votre solution d’intégration de données. En créant un pipeline à l’aide de l'éditeur visuel de pipeline, vous pouvez tester vos activités et vos pipelines avec la fonction Debug.
Dans Azure Data Factory, il n'est pas nécessaire de publier des modifications dans le pipeline ou les activités avant de vouloir déboguer. Cela est utile dans un scénario où vous souhaitez tester les modifications et voir si elles fonctionnent comme prévu avant de les enregistrer et de les publier.
Parfois, vous ne souhaitez pas déboguer l’ensemble du pipeline, mais tester une partie du pipeline. Une exécution de débogage vous permet d’effectuer cette opération. Vous pouvez tester le pipeline de bout en bout ou définir un point d’arrêt. En procédant ainsi en mode débogage, vous pouvez voir les résultats de chaque étape de manière interactive lorsque vous générez et déboguez votre pipeline.
Déboguer et publier un pipeline
Lorsque vous créez ou modifiez un pipeline en cours d’exécution, vous pouvez voir les résultats de chaque activité sous l’onglet Sortie du canevas du pipeline.
Une fois qu’une série de tests réussit, et que vous êtes satisfait des résultats, vous pouvez ajouter d’autres activités au pipeline et continuer le débogage de manière itérative. Lorsque vous n’êtes pas satisfait ou que vous souhaitez empêcher le débogage du pipeline, vous pouvez annuler une exécution de test pendant qu’elle est en cours. N’oubliez pas que si vous sélectionnez le curseur de débogage, le pipeline sera exécuté. Par conséquent, si le pipeline contient par exemple une activité de copie, la série de tests copiera des données de la source vers la destination.
Une bonne pratique consiste à utiliser des dossiers de test dans vos activités de copie et d’autres activités lors du débogage, de sorte que lorsque vous êtes satisfait des résultats et que vous avez débogué le pipeline, vous basculez vers les dossiers réels pour vos opérations normales.
Pour déboguer le pipeline, sélectionnez Déboguer dans la barre d’outils. L’état d’exécution du pipeline apparaît dans l’onglet Sortie au bas de la fenêtre.
Une fois que le pipeline peut s’exécuter correctement, sélectionnez Tout publier dans la barre d’outils supérieure. Cette action publie les entités (jeux de données et pipelines) que vous avez créées dans Data Factory.
Attendez de voir le message de publication réussie. Pour afficher les messages de notification, sélectionnez Afficher les notifications (icône en forme de cloche) en haut à droite du portail (bouton en forme de cloche).
Mapper le débogage de flux de données
Pendant la génération des flux de données de mappage, vous pouvez surveiller de manière interactive comment s’exécutent les formes et les transformations de données et ainsi les déboguer. Pour utiliser cette fonctionnalité, il est tout d'abord nécessaire d'activer la fonction « Data Flow Debug ».
La session de débogage peut être utilisée à la fois dans les sessions de conception de flux de données et lors de l’exécution du débogage de pipeline des flux de données. Une fois le mode de débogage activé, vous allez générer le flux de données avec un cluster Spark actif. Le cluster Spark se ferme une fois que le débogage est désactivé. Vous avez le choix dans le calcul que vous allez utiliser. Lorsque vous utilisez un cluster de débogage existant, le temps de démarrage est réduit. Toutefois, pour les charges de travail complexes ou parallèles, vous souhaiterez peut-être créer votre propre cluster juste-à-temps.
Les bonnes pratiques pour déboguer les flux de données consistent à garder le mode de débogage activé, et à vérifier et valider la logique métier incluse dans le flux de données. L’affichage visuel des transformations et des formes de données vous permet de voir les modifications.
Si vous souhaitez tester le flux de données dans un pipeline que vous avez créé, il est préférable d’utiliser le bouton Déboguer dans le panneau de pipeline. Bien que l’aperçu des données n’écrive pas de données, une exécution de débogage dans votre flux de données écrira les données, tout comme le débogage d’un pipeline, vers la destination de votre récepteur.
Paramètres de débogage
Comme mentionné précédemment, chaque session de débogage démarrée à partir de l’interface utilisateur Azure Data Factory est considérée comme une nouvelle session avec son propre cluster Spark. Pour superviser les sessions, vous pouvez utiliser la vue de monitoring de la session de débogage afin de gérer vos sessions de débogage pour la fabrique de données ayant été configurée.
Pour voir si un cluster Spark est prêt pour le débogage, vous pouvez vérifier l’indication de l’état du cluster en haut de la surface de conception. S'il est vert, c'est prêt. Si le cluster n’était pas encore en cours d’exécution lorsque vous avez basculé en mode de débogage, la durée d’attente peut atteindre environ cinq à sept minutes car les clusters doivent s’exécuter.
Une fois le débogage terminé, il est recommandé de désactiver le mode débogage afin que le cluster Spark se termine.
Lorsque vous effectuez un débogage, vous pouvez modifier l’aperçu des données dans un flux de données en sélectionnant Paramètre de débogage. Les exemples de modification de l’aperçu des données comprennent les limites de lignes ou les sources de fichier, si vous utilisez des transformations de source. Lorsque vous sélectionnez le service lié de préparation, vous pouvez spécifier un magasin de données pris en charge comme source de préparation.
Si vous avez des paramètres dans votre Data Flow ou l’un de ses jeux de données référencés, vous pouvez spécifier les valeurs à utiliser pendant le débogage en sélectionnant l’onglet Parameters. Pendant le débogage, les récepteurs ne sont pas obligatoires et sont ignorés dans le flux de données. Si vous souhaitez tester et écrire les données transformées sur votre récepteur, vous pouvez exécuter le flux de données à partir d’un pipeline et utiliser l’exécution du débogage à partir du pipeline.
Comme décrit précédemment, dans Azure Data Factory, il est possible de déboguer uniquement jusqu'à un certain point ou une activité. Pour ce faire, vous pouvez utiliser un point d’arrêt sur l’activité jusqu’à l’endroit où vous souhaitez effectuer le test, puis sélectionner Déboguer. Une option Déboguer jusqu’à apparaît sous la forme d’un cercle rouge vide dans le coin supérieur droit de l’élément. Après que vous avez sélectionné l’option Déboguer jusqu’à, elle se transforme en un cercle rouge plein pour indiquer que le point d’arrêt est activé. Azure Data Factory s’assurera ensuite que le test s’exécute uniquement jusqu’à l’activité de ce point d’arrêt dans le pipeline. Cette fonctionnalité est utile lorsque vous souhaitez tester uniquement un sous-ensemble des activités d’un pipeline.
Dans la plupart des scénarios, les fonctionnalités de débogage d’Azure Data Factory sont suffisantes. Toutefois, il est parfois nécessaire de tester les modifications dans un pipeline dans un environnement de bac à sable cloné. Un cas d’usage peut se présenter lorsque vous avez des pipelines ETL paramétrisés et que vous souhaitez tester la manière dont ils se comportent lorsqu’ils déclenchent une réception de fichier par rapport au basculement d’une fenêtre de temps. Dans ce cas, le clonage d’un environnement de bac à sable peut être plus approprié.
S’il y a une bonne chose à savoir sur Azure Data Factory, c’est qu’étant donné que la facturation ne se fait que par le nombre d’exécutions, une deuxième Data Factory n’entraîne pas de frais supplémentaires.
Superviser les exécutions de débogage
Pour superviser les exécutions de débogage, vous pouvez vérifier l’onglet de sortie, mais uniquement pour l’exécution la plus récente qui s’est produite durant la session de navigation, car vous n’aurez pas accès à l’historique. Si vous souhaitez obtenir un aperçu de l’historique des exécutions de débogage, ou voir l’ensemble des exécutions de débogage actives, vous pouvez accéder à l’onglet Superviser.
Gardez à l’esprit que le service Azure Data Factory ne garde qu’un historique des exécutions de débogage de 15 jours. Pour la surveillance de vos sessions de débogage de flux de données, vous pouvez également accéder à l’onglet Surveiller.