Utiliser le calcul partitionné dans Dataflow Gen2 (préversion)

Note

Le calcul partitionné est actuellement en préversion et disponible uniquement dans Dataflow Gen2 avec CI/CD.

Le calcul partitionné est une fonctionnalité du moteur Dataflow Gen2 qui permet aux parties de votre logique de flux de données de s’exécuter en parallèle, ce qui réduit le temps nécessaire pour terminer ses évaluations.

Scénarios de calcul partitionné où le moteur de flux de données peut optimiser efficacement les opérations qui permettent de partitionner la source de données et de traiter chaque partition en parallèle. Par exemple, dans un scénario où vous vous connectez à plusieurs fichiers stockés dans un Azure Data Lake Storage Gen2, vous pouvez partitionner la liste des fichiers à partir de votre source, récupérer efficacement la liste partitionnée des fichiers à l'aide de de pliage de requêtes, utiliser l'expérience des fichiers combine et traiter tous les fichiers en parallèle.

Note

Seuls les connecteurs pour Azure Data Lake Storage Gen2, Dossier et Azure Blob Storage émettent le script approprié pour utiliser le calcul partitionné. Les connecteurs pour SharePoint et Fabric Lakehouse ne le prennent pas en charge aujourd’hui.

Comment définir le calcul partitionné

Pour utiliser cette fonctionnalité, procédez comme suit :

Activer les paramètres de dataflow

Dans l’onglet Accueil du ruban, sélectionnez le bouton Options pour afficher sa boîte de dialogue. Accédez à la section Mise à l’échelle et activez le paramètre qui lit Autoriser l’utilisation du calcul partitionné.

Capture d’écran du paramètre de calcul partitionné dans la section Mise à l’échelle de la boîte de dialogue Options.

L’activation de cette option a deux objectifs :

  • Permet à votre dataflow d’utiliser le calcul partitionné s’il est découvert par le biais de vos scripts de requête

  • Les expériences telles que les fichiers combinés créent désormais automatiquement des clés de partition qui peuvent être utilisées pour le calcul partitionné

Vous devez également activer le paramètre dans la section Confidentialité pour autoriser la combinaison de données à partir de plusieurs sources.

Requête avec clé de partition

Note

Pour utiliser le calcul partitionné, vérifiez que votre requête est définie pour être intermédiaire.

Après avoir activé le paramètre, vous pouvez utiliser l’expérience combiner des fichiers pour une source de données qui utilise la vue du système de fichiers comme Azure Data Lake Storage Gen2. Lorsque l'expérience de combinaison de fichiers se termine, vous remarquez que votre requête a une étape ajoutée personnalisée qui a un script similaire à ceci :

let
    rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
    combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
    getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
    withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
    withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
    withPartitionKey

Ce script, et plus précisément le composant withPartitionKey, pilote la logique de comment votre Dataflow tente de partitionner vos données et comment il tente d’évaluer les éléments en parallèle.

Vous pouvez utiliser la fonction Table.PartitionKey sur l'étape Ajoutée personnalisée. Cette fonction retourne la clé de partition de la table spécifiée. Dans le cas ci-dessus, il s’agit de la colonne RelativePath. Vous pouvez obtenir une liste distincte des valeurs de cette colonne pour découvrir toutes les partitions utilisées pendant l’exécution du flux de données.

Important

Il est important que la colonne de clé de partition reste dans la requête afin que le calcul partitionné soit appliqué.

Considérations et recommandations

  • Calcul partitionné et copie rapide : si votre source de données ne prend pas en charge le pliage des transformations pour vos fichiers, nous vous recommandons de choisir le calcul partitionné sur une copie rapide.

  • Lakehouse file access : Pour vous connecter à des fichiers dans Lakehouse, nous vous recommandons d’utiliser le connecteur Azure Data Lake Storage Gen2 en transmettant l’URL du nœud Files.

  • Meilleure performance : utilisez cette méthode pour charger des données directement dans la zone de transit en tant que destination ou dans un Fabric Warehouse.

  • Rétention des données : seule la dernière exécution de partition est stockée dans Dataflow Staging Lakehouse et retournée par le connecteur Dataflow. Envisagez d’utiliser une destination de données pour conserver les données pour chaque partition distincte.

  • Transformations de fichiers : utilisez l’exemple de fichier de transformation à partir de l’expérience Combiner des fichiers pour introduire des transformations qui doivent se produire dans chaque fichier.

  • Transformations prises en charge : le calcul partitionné prend uniquement en charge un sous-ensemble de transformations. Les performances peuvent varier en fonction de votre source et de votre ensemble de transformations utilisées.

  • Facturation : la facturation de l’exécution du flux de données est basée sur la consommation d’unités de capacité (CU).