Comprendre le workflow de contrôle d’une Data Factory
Qu’est-ce que le flux de contrôle
Le flux de contrôle est une orchestration des activités du pipeline, qui inclut le chaînage des activités en une séquence, la création de branches, la définition de paramètres au niveau du pipeline et la transmission des arguments lors de l’appel du pipeline à la demande ou à partir d’un déclencheur.
Le flux de contrôle peut également inclure des conteneurs de bouclage qui peuvent transmettre des informations pour chaque itération du conteneur de bouclage.
Si une boucle For Each est utilisée en tant qu’activité de flux de contrôle, Azure Data Factory peut démarrer plusieurs activités en parallèle avec cette approche. Cela vous permet de créer une logique de traitement complexe et itérative dans les pipelines que vous créez avec Azure Data Factory, lequel prend en charge la création de divers modèles d’intégration de données tels que la création d’un entrepôt de données moderne.
Certaines des activités de flux de contrôle courantes sont décrites dans les sections ci-dessous.
Chaînage des activités
Dans Azure Data Factory, vous pouvez chaîner des activités dans une séquence au sein d’un pipeline. Il est possible d’utiliser la propriété DependsOn dans une définition d’activité pour la chaîner avec une activité en amont.
Création d’une branche d’activités
Utilisez Azure Data Factory pour créer des branches d’activités dans un pipeline. Un exemple d’activité de branchement est l’activité If Condition , qui est similaire à une instruction if fournie dans les langages de programmation. Une activité de branchement évalue un ensemble d’activités, et si la condition retourne vrai, un ensemble d’activités est exécuté. Lorsqu’elle retourne false, un autre ensemble d’activités est exécuté.
Pour les situations où vous avez besoin de plus de deux chemins de résultat, utilisez l’activité Switch . L’activité Switch fonctionne comme une instruction switch/case dans les langages de programmation : elle évalue une expression et exécute les activités qui correspondent à une valeur de cas spécifique. Vous pouvez définir jusqu’à 25 cas nommés plus une branche par défaut qui s’exécute lorsqu’aucun cas ne correspond. Utilisez If Condition pour les décisions binaires true/false et changez lorsque vous avez plusieurs résultats discrets.
Paramètres
Vous pouvez définir les paramètres au niveau du pipeline et transmettre des arguments pendant que vous appelez le pipeline à la demande ou à partir d’un déclencheur. Les activités consomment ensuite les arguments conservés dans un paramètre lors de leur passage au pipeline.
Transmission d’un état personnalisé
La transmission d’un état personnalisé est rendue possible avec Azure Data Factory. La transmission d’un état personnalisé est une activité qui génère un résultat ou un état qui doit être consommé par une activité ultérieure dans le pipeline. Par exemple, dans une définition JSON d’une activité, vous pouvez accéder à la sortie de l’activité précédente. L’utilisation du passage d’état personnalisé vous permet de créer des workflows où les valeurs transitent à travers les activités.
Bouclage des conteneurs
L’étendue des conteneurs de boucle du flux de contrôle, par exemple l’activité ForEach, définit la répétition dans un pipeline. Elle vous permet d’effectuer une itération sur une collection et d’exécuter des activités spécifiées dans la boucle définie. Elle fonctionne de la même façon que la « structure de bouclage For Each » utilisée dans les langages de programmation. En plus de chaque activité, il y a également une activité 'Until'. Cette fonctionnalité est similaire à une boucle Do-Until utilisée dans la programmation. Ce qu'il fait, c'est exécuter un ensemble d'activités (do) dans une boucle jusqu'à ce que la condition (until) soit remplie.
Flux basés sur déclencheur
Les pipelines peuvent être déclenchés sur demande (par événement, par exemple lors de la publication d’un objet blob) ou à heure planifiée.
Appeler un pipeline à partir d’un autre pipeline
L'activité d'exécution de pipeline avec Azure Data Factory permet à un pipeline « Data Factory » d'appeler un autre pipeline.
Delta Flux
Les cas d’utilisation liés à l’utilisation de flux Delta sont des charges Delta. Les charges Delta dans les modèles ETL chargent uniquement les données qui ont changé depuis une itération précédente d’un pipeline. Les fonctionnalités telles que l’activité Lookup et la planification flexible permettent de gérer les tâches de chargement Delta. En cas d’utilisation d’une activité Lookup, elle lit ou recherche une valeur d’enregistrement ou de nom de table à partir de n’importe quelle source externe. Cette sortie peut servir de référence pour des activités suivantes.
Autres flux de contrôle
Il existe de nombreuses autres activités de flux de contrôle. Pour d’autres activités utiles, consultez les éléments suivants :
Activité Web : l’activité Web dans Azure Data Factory utilisant des flux de contrôle, peut appeler un point de terminaison REST personnalisé à partir d’un pipeline Data Factory. Les jeux de données et les services liés peuvent être passés afin d'être utilisés par l’activité.
Activité Get metadata : l’activité Get metadata récupère les métadonnées de toutes les données dans Azure Data Factory.