Freigeben über


Vorbereiten und Transformieren von Daten in Microsoft Fabric

Nachdem Sie Daten in Microsoft Fabric aufgenommen haben, müssen Sie sie normalerweise vor der Analyse bereinigen, gestalten und anreichern. Ganz gleich, ob Sie kuratierte Tabellen in einem Lakehouse oder modellbereite Daten in einem Warehouse vorbereiten möchten, bietet Fabric sowohl Low-Code- als auch Code-first-Transformationsoptionen.

In diesem Artikel wird beschrieben, wie Sie Dataflow Gen2 für die visuelle Datenvorbereitung mit geringem Code und die Verwendung von Notizbüchern und Benutzerdatenfunktionen für erweiterte codegesteuerte Transformationen verwenden. Wählen Sie den Ansatz aus, der Ihren Anforderungen an Rollen, Fähigkeiten und Arbeitsauslastung am besten entspricht.

Transformieren von Daten mit Dataflow Gen2

Verwenden Sie für die Datenvorbereitung mit geringem Code Dataflow Gen2. Dataflow Gen2 verwendet die vertraute Power Query-Oberfläche , die gleiche Technologie, die in Excel und Power BI verwendet wird.

Mit der Power Query-Schnittstelle können Sie Filter anwenden, Spalten ableiten, Daten aggregieren, Abfragen zusammenführen und andere Transformationen über einen visuellen, schrittweisen Workflow durchführen. In Fabric kann Dataflow Gen2 als eigenständiger ETL-Prozess oder als Aktivität in einer Pipeline ausgeführt werden.

Nachdem Sie beispielsweise rohe Verkaufsdaten in ein Lakehouse aufgenommen haben, können Sie einen Datenfluss verwenden, um Duplikate zu entfernen, Spaltennamen zu standardisieren, Geschäftsregeln anzuwenden und die bereinigten Ergebnisse in kuratierten Tabellen in einer Goldschicht des Lakehouse oder in einem Warehouse zu speichern.

Dataflow Gen2 wird in der Cloud mit Fabric-Kapazität ausgeführt, sodass sie auf große Datasets und komplexe Transformationen skaliert werden kann, ohne dass benutzerdefinierter Code erforderlich ist. Datenanalysten und BI-Entwickler können Daten eigenständig vorbereiten und gleichzeitig Ausgabedaten in Lakehouse- oder Warehouse-Tabellen als Teil der einheitlichen Speicherbasis von Fabric ablegen.

Code-first-Vorbereitung mit Notizbüchern und benutzerdefinierten Datenfunktionen

Verwenden Sie für erweiterte Transformationsszenarien mit Code Notizbücher, Spark-Aufträge und Benutzerdatenfunktionen in der Data Engineering-Oberfläche.

Ein Fabric-Notizbuch bietet eine Jupyter-Formatumgebung im Fabric-Portal. Sie können Code in Sprachen wie Python, T-SQL oder Scala schreiben, um mit daten zu arbeiten, die in OneLake gespeichert sind.

Notizbücher eignen sich gut für komplexe Transformationen, benutzerdefinierte Algorithmen, Data Science-Workflows und die Integration in externe Bibliotheken. Sie können z. B. rohe JSON- oder Parkettdateien aus einem Lakehouse in einen Spark DataFrame laden, sie mit anderen Datasets verknüpfen, Fensteraggregationen anwenden, die Daten anreichern und die Ergebnisse als Delta-Tabellen in OneLake speichern.

Notizbücher sind direkt in Seehäuser und Lagerhäuser im selben Arbeitsbereich integriert. Sie können Daten ohne zusätzliche Konfiguration von Anmeldeinformationen lesen und schreiben, da Vorgänge im Fabric-Sicherheitskontext ausgeführt werden. Sie können Notizbücher auch mithilfe der Notizbuchaktivität in Data Factory-Pipelines koordinieren und planen.

Mithilfe von Fabric-Benutzerdatenfunktionen können Sie wiederverwendbare Python-Logik in Fabric kapseln. Sie können sie verwenden, um erweiterte Geschäftsregeln zu implementieren, externe Dienste aufzurufen oder modulare Transformationskomponenten zu erstellen. Benutzerdatenfunktionen unterstützen PyPI-Bibliotheken, können eine Verbindung mit Fabric-Datenquellen herstellen und REST-Endpunkte für die externe Integration verfügbar machen. Diese Funktionen eignen sich für Unternehmensszenarien, die wiederverwendbare, geregelte Transformationslogik erfordern.

Sie können Benutzerdatenfunktionen aus Notizbüchern, Pipelines, Aktivatorregeln und als Teil von Translytical-Aufgabenflüssen in Power BI-Berichten aufrufen.