Déduplication de lignes et recherche de valeurs Null à l’aide d’extraits de flux de données

S'APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Data Factory dans Microsoft Fabric est la prochaine génération de Azure Data Factory, avec une architecture plus simple, une IA intégrée et de nouvelles fonctionnalités. Si vous débutez avec l'intégration des données, commencez par Fabric Data Factory. Les charges de travail ADF existantes peuvent être mises à niveau vers Fabric pour accéder à de nouvelles fonctionnalités dans la science des données, l’analytique en temps réel et la création de rapports.

En utilisant des extraits de code dans des flux de données de mappage, vous pouvez facilement effectuer des tâches courantes telles que la déduplication des données et le filtrage de valeurs Null. Cet article explique comment ajouter facilement ces fonctions à vos pipelines à l’aide d’extraits de script de flux de données.

Créer un pipeline

  1. Sélectionnez Nouveau pipeline.

  2. Ajoutez une activité de flux de données.

  3. Sélectionnez l’onglet Paramètres de la source, ajoutez une transformation source, puis connectez-la à l’un de vos jeux de données.

    Capture d’écran du volet « Paramètres de la source » pour l’ajout d’un type source.

    Les extraits de code de vérification de la déduplication et de la valeur Null utilisent des modèles génériques qui tirent parti de la dérive du schéma de flux de données. Les extraits de code fonctionnent avec n’importe quel schéma de votre jeu de données, ou avec des jeux de données qui n’ont pas de schéma prédéfini.

  4. Dans la section « Ligne distincte utilisant toutes les colonnes » de Script de flux de données (DFS), copiez l’extrait de code pour DistinctRows.

  5. Go dans la page de documentation Data Flow Script et copiez l’extrait de code pour Distinct Rows.

    Capture d’écran d’un extrait de code source.

  6. Dans votre script, après la définition de source1, appuyez sur Entrée, puis collez l’extrait de code.

  7. Effectuez l'une des opérations suivantes :

    • Connectez cet extrait de code collé à la transformation source que vous avez créée précédemment dans le graphique en saisissant source1 devant le code collé.

    • Vous pouvez également connecter la nouvelle transformation dans le concepteur en sélectionnant le flux entrant à partir du nouveau nœud de transformation dans le graphique.

      Capture d'écran du volet « Paramètres de fractionnement conditionnel ».

    À présent, votre flux de données supprime les doublons de lignes de votre source à l’aide de la transformation d’agrégation, qui regroupe toutes les lignes à l’aide d’un hachage général pour toutes les valeurs de colonne.

  8. Ajoutez un extrait de code pour fractionner vos données en un flux qui contient des lignes avec des valeurs Null et un autre flux sans valeurs Null. Pour ce faire :

  9. Revenez à la bibliothèque d’extraits de code et cette fois copiez le code pour les contrôles de valeur Null.

    b. Dans le concepteur de flux de données, sélectionnez à nouveau Script, puis collez ce nouveau code de transformation en bas. Cette action connecte le script à votre transformation précédente en plaçant le nom de ladite transformation devant l’extrait de code collé.

    Votre graphique de flux de données doit maintenant ressembler à ceci :

    Capture d’écran du graphique de flux de données.

Vous avez maintenant créé un data flow fonctionnel avec des vérifications de déduplication et null génériques en prenant des extraits de code existants à partir de la bibliothèque de scripts Data Flow et en les ajoutant à votre conception existante.

  • Créez le reste de votre logique de flux de données à l’aide de transformations de flux de données de mappage.