Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Note
Le calcul partitionné est actuellement en préversion et disponible uniquement dans Dataflow Gen2 avec CI/CD.
Le calcul partitionné est une fonctionnalité du moteur Dataflow Gen2 qui permet aux parties de votre logique de flux de données de s’exécuter en parallèle, ce qui réduit le temps nécessaire pour terminer ses évaluations.
Scénarios de calcul partitionné où le moteur de flux de données peut optimiser efficacement les opérations qui permettent de partitionner la source de données et de traiter chaque partition en parallèle. Par exemple, dans un scénario où vous vous connectez à plusieurs fichiers stockés dans un Azure Data Lake Storage Gen2, vous pouvez partitionner la liste des fichiers à partir de votre source, récupérer efficacement la liste partitionnée des fichiers à l'aide de de pliage de requêtes, utiliser l'expérience des fichiers combine et traiter tous les fichiers en parallèle.
Note
Seuls les connecteurs pour Azure Data Lake Storage Gen2, Dossier et Azure Blob Storage émettent le script approprié pour utiliser le calcul partitionné. Les connecteurs pour SharePoint et Fabric Lakehouse ne le prennent pas en charge aujourd’hui.
Comment définir le calcul partitionné
Pour utiliser cette fonctionnalité, procédez comme suit :
Activer les paramètres de dataflow
Dans l’onglet Accueil du ruban, sélectionnez le bouton Options pour afficher sa boîte de dialogue. Accédez à la section Mise à l’échelle et activez le paramètre qui lit Autoriser l’utilisation du calcul partitionné.
L’activation de cette option a deux objectifs :
Permet à votre dataflow d’utiliser le calcul partitionné s’il est découvert par le biais de vos scripts de requête
Les expériences telles que les fichiers combinés créent désormais automatiquement des clés de partition qui peuvent être utilisées pour le calcul partitionné
Vous devez également activer le paramètre dans la section Confidentialité pour autoriser la combinaison de données à partir de plusieurs sources.
Requête avec clé de partition
Note
Pour utiliser le calcul partitionné, vérifiez que votre requête est définie pour être intermédiaire.
Après avoir activé le paramètre, vous pouvez utiliser l’expérience combiner des fichiers pour une source de données qui utilise la vue du système de fichiers comme Azure Data Lake Storage Gen2. Lorsque l'expérience de combinaison de fichiers se termine, vous remarquez que votre requête a une étape ajoutée personnalisée qui a un script similaire à ceci :
let
rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
withPartitionKey
Ce script, et plus précisément le composant withPartitionKey, pilote la logique de comment votre Dataflow tente de partitionner vos données et comment il tente d’évaluer les éléments en parallèle.
Vous pouvez utiliser la fonction Table.PartitionKey sur l'étape Ajoutée personnalisée. Cette fonction retourne la clé de partition de la table spécifiée. Dans le cas ci-dessus, il s’agit de la colonne RelativePath. Vous pouvez obtenir une liste distincte des valeurs de cette colonne pour découvrir toutes les partitions utilisées pendant l’exécution du flux de données.
Important
Il est important que la colonne de clé de partition reste dans la requête afin que le calcul partitionné soit appliqué.
Considérations et recommandations
Calcul partitionné et copie rapide : si votre source de données ne prend pas en charge le pliage des transformations pour vos fichiers, nous vous recommandons de choisir le calcul partitionné sur une copie rapide.
Lakehouse file access : Pour vous connecter à des fichiers dans Lakehouse, nous vous recommandons d’utiliser le connecteur Azure Data Lake Storage Gen2 en transmettant l’URL du nœud
Files.Meilleure performance : utilisez cette méthode pour charger des données directement dans la zone de transit en tant que destination ou dans un Fabric Warehouse.
Rétention des données : seule la dernière exécution de partition est stockée dans Dataflow Staging Lakehouse et retournée par le connecteur Dataflow. Envisagez d’utiliser une destination de données pour conserver les données pour chaque partition distincte.
Transformations de fichiers : utilisez l’exemple de fichier de transformation à partir de l’expérience Combiner des fichiers pour introduire des transformations qui doivent se produire dans chaque fichier.
Transformations prises en charge : le calcul partitionné prend uniquement en charge un sous-ensemble de transformations. Les performances peuvent varier en fonction de votre source et de votre ensemble de transformations utilisées.
Facturation : la facturation de l’exécution du flux de données est basée sur la consommation d’unités de capacité (CU).