Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Hinweis
Der partitionierte Compute befindet sich derzeit in der Vorschau und ist nur in Dataflow Gen2 mit CI/CD verfügbar.
Partitionierte Berechnung ist eine Funktion der Dataflow Gen2-Engine, die es ermöglicht, Teile der Datenflusslogik parallel auszuführen, wodurch die Zeit zur Fertigstellung der Auswertung verkürzt wird.
Partitionierte Computeziele für Szenarien, in denen das Dataflow-Modul Vorgänge effizient falten kann, die die Datenquelle partitionieren und jede Partition parallel verarbeiten können. In einem Szenario, in dem Sie eine Verbindung mit mehreren Dateien herstellen, die in einem Azure Data Lake Storage Gen2 gespeichert sind, können Sie beispielsweise die Liste der Dateien aus Ihrer Quelle partitionieren, die partitionierte Liste der Dateien mithilfe von Query Folding effizient abrufen, die Funktion Dateien kombinieren verwenden und alle Dateien parallel verarbeiten.
Hinweis
Nur Connectors für Azure Data Lake Storage Gen2, Ordner und Azure Blob Storage erzeugen das richtige Skript zur Verwendung von partitionierten Berechnungen. Die Connectors für SharePoint und Fabric Lakehouse unterstützen sie heute nicht.
So richten Sie partitionierte Rechenressourcen ein
Führen Sie die folgenden Schritte aus, um diese Funktion zu verwenden:
Aktivieren von Dataflow-Einstellungen
Wählen Sie auf der Registerkarte "Start" des Menübands die Schaltfläche "Optionen " aus, um dessen Dialogfeld anzuzeigen. Wechseln Sie zum Abschnitt "Skalierung", und aktivieren Sie die Einstellung, die die Verwendung der partitionierten Berechnung zulässt.
Das Aktivieren dieser Option hat zwei Zwecke:
Ermöglicht es Ihrem Dataflow, partitionierte Berechnung zu verwenden, wenn sie über Ihre Abfrageskripts ermittelt wird.
Erfahrungen wie das Kombinieren von Dateien erstellen jetzt automatisch Partitionsschlüssel, die für partitioniertes Computing verwendet werden können
Sie müssen auch die Einstellung im Abschnitt "Datenschutz " aktivieren, um das Kombinieren von Daten aus mehreren Quellen zuzulassen.
Abfrage mit Partitionsschlüssel
Hinweis
Um partitioniertes Rechnen zu verwenden, stellen Sie sicher, dass die Abfrage zur Ausführung bereitgestellt ist.
Nachdem Sie die Einstellung aktiviert haben, können Sie die Oberfläche für die Kombination von Dateien für eine Datenquelle verwenden, die die Dateisystemansicht wie Azure Data Lake Storage Gen2 verwendet. Wenn die Dateikombination abgeschlossen ist, stellen Sie fest, dass Ihre Abfrage einen benutzerdefinierten Schritt hinzugefügt hat, der einem Skript ähnlich ist:
let
rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
withPartitionKey
Dieses Skript und insbesondere die withPartitionKey Komponente steuert die Logik, wie Ihr Dataflow versucht, Ihre Daten zu partitionieren und wie versucht wird, Dinge parallel auszuwerten.
Sie können die Table.PartitionKey-Funktion für den hinzugefügten benutzerdefinierten Schritt verwenden. Diese Funktion gibt den Partitionsschlüssel der angegebenen Tabelle zurück. Für den obigen Fall ist es die Spalte RelativePath. Sie können eine eindeutige Liste der Werte in dieser Spalte abrufen, um alle Partitionen zu erlernen, die während der Ausführung des Datenflusses verwendet werden.
Von Bedeutung
Es ist wichtig, dass die Partitionsschlüsselspalte in der Abfrage verbleibt, damit partitionierte Compute angewendet werden kann.
Überlegungen und Empfehlungen
Partitioniertes Rechnen im Vergleich zur Schnellkopie: Wenn Ihre Datenquelle die Transformationsfaltung für Ihre Dateien nicht unterstützt, empfehlen wir, dass Sie partitioniertes Rechnen der Schnellkopie vorziehen.
Lakehouse-Dateizugriff: Um eine Verbindung mit Dateien im Lakehouse herzustellen, empfehlen wir die Verwendung des Azure Data Lake Storage Gen2 Connectors durch Übergeben der URL des Knotens
Files.Best Performance: Verwenden Sie diese Methode, um Daten direkt in die Zwischenablage als Ziel oder in ein Fabric-Lagerhaus zu laden.
Datenaufbewahrung: Nur die neueste Partitionsausführung wird im Dataflow Staging Lakehouse gespeichert und vom Dataflow Connector zurückgegeben. Erwägen Sie die Verwendung eines Datenziels zum Aufbewahren von Daten für jede separate Partition.
Dateitransformationen: Verwenden Sie die Beispieltransformationsdatei aus der Oberfläche "Dateien kombinieren ", um Transformationen einzuführen, die in jeder Datei auftreten sollten.
Unterstützte Transformationen: Partitionierte Compute unterstützt nur eine Teilmenge von Transformationen. Die Leistung kann je nach Quelle und verwendeten Transformationen variieren.
Abrechnung: Die Abrechnung für den Datenflusslauf basiert auf dem Verbrauch der Kapazitätseinheit (CU).