Laden von Daten in das Lakehouse unter Verwendung von Partitionen in einer Pipeline

Das Partitionsmerkmal der Lakehouse-Tabelle als Ziel bietet die Möglichkeit, Daten mit Partitionen in die Lakehouse-Tabelle zu laden. Die Partitionen werden im Lakehouse-Ziel generiert, was den nachgelagerten Aufträgen oder dem Verbrauch zugutekommt.

In diesem Lernprogramm erfahren Sie, wie Sie Daten mithilfe von Partitionen in einer Pipeline in ein Lakehouse laden. Als Beispiel laden Sie einen Beispieldatensatz mithilfe einer oder mehrerer Partitionsspalten in Lakehouse, indem Sie die folgenden Schritte ausführen. Das Beispieldatenset Feiertage wird als Beispieldaten verwendet.

Voraussetzungen

  • Stellen Sie sicher, dass Sie über einen Project Microsoft Fabric aktivierten Arbeitsbereich verfügen: Create a workspace.

Erstellen einer Pipeline

  1. Navigieren Sie zu Power BI.

  2. Wählen Sie unten links auf dem Bildschirm das symbol Power BI aus, und wählen Sie dann Fabric aus, um die Startseite von Data Factory zu öffnen.

  3. Navigieren Sie zu Ihrem Microsoft Fabric Arbeitsbereich. Wenn Sie im vorherigen Abschnitt „Voraussetzungen“ einen neuen Arbeitsbereich erstellt haben, verwenden Sie diesen Arbeitsbereich.

  1. Wählen Sie + Neues Element aus.

  2. Suchen Und wählen Sie "Pipeline" aus, und geben Sie dann einen Pipelinenamen ein, um eine neue Pipeline zu erstellen. um eine neue Pipeline zu erstellen.

    Screenshot der Schaltfläche

    Screenshot: Der Name der neu erstellten Pipeline.

Daten mithilfe von Partitionsspalten in das Lakehouse laden

  1. Öffnen Sie Ihre Pipeline, und fügen Sie eine Kopieraktivität hinzu, indem Sie "Pipelineaktivität ->Daten kopieren" auswählen. Wählen Sie unter "Quelle" unten in der Verbindungsliste "Weitere" und dann unter "Beispieldaten" die Option "Feiertage" aus.

    Screenshot: Verwendung eines Beispieldatensets.

    Screenshot der Auswahl des Beispiel-Datasets.

  2. Wählen Sie auf der Registerkarte "Ziel" unten in der Verbindungsliste Mehr aus und dann ein vorhandenes Lakehouse auf der Registerkarte "OneLake", spezifizieren Sie Ihr Lakehouse oder erstellen Sie ein neues Lakehouse auf der Registerkarte "Home". Wählen Sie Tabelle im Stammverzeichnis aus und geben Sie Ihren Tabellennamen an.

    Screenshot der Zielkonfiguration.

  3. Erweitern Sie Erweitert, wählen Sie in der TabellenaktionÜberschreiben aus, und wählen Sie dann unter Partition aktivieren die Partition, unter Partitionsspalten die Option Spalte hinzufügen, und dann die Spalte aus, die Sie als Partitionsspalte verwenden möchten. Sie können eine einzelne Spalte oder mehrere Spalten als Partitionsspalte verwenden.

    Wenn Sie eine einzelne Spalte verwenden, wird countryOrRegion (Zeichenfolgentyp) als Beispiel in diesem Lernprogramm ausgewählt. Die Daten werden durch unterschiedliche Spaltenwerte partitioniert.

    Screenshot der Konfiguration der Partitionstabellen am Zielort.

    Hinweis

    Die Partitionsspalte, die ausgewählt werden kann, sollte String-, Ganzzahl-, Boolescher- und Datum/Uhrzeit-Typ sein. Spalten anderer Datentypen werden in der Dropdownliste nicht angezeigt.

    Wenn Sie mehrere Partitionsspalten verwenden, fügen Sie eine weitere Spalte hinzu, und wählen Sie als Beispiel isPaidTimeOff, das booleschen Typs ist. Führen Sie dann die Pipeline aus. Die Logik besteht darin, dass die Tabelle zuerst von den ersten hinzugefügten Spaltenwerten partitioniert wird, und dann werden die partitionierten Daten weiterhin von den zweiten hinzugefügten Spaltenwerten partitioniert.

    Screenshot der Konfiguration mehrerer Partitionsspalten.

    Tipp

    Sie können Spalten ziehen, um die Reihenfolge der Spalten zu ändern, und die Partitionssequenz ändert sich ebenfalls.

  4. Wählen Sie Ausführen und dann Speichern und Ausführen aus, um die Pipeline zu starten.

    Screenshot des Speicherns und Ausführens.

  5. Nachdem die Pipeline erfolgreich ausgeführt wurde, gehen Sie zu Ihrem Lakehouse. Suchen Sie die Tabelle, die Sie kopiert haben. Klicken Sie mit der rechten Maustaste auf den Tabellenamen , und wählen Sie Daten anzeigen.

    Bei einer Partitionsspalte (countryOrRegion) wird die Tabelle nach Land- oder Regionsnamen in verschiedene Ordner partitioniert. Das Sonderzeichen im Spaltennamen ist codiert, und möglicherweise unterscheidet sich der Dateiname von Spaltenwerten, wenn Sie Dateien in Lakehouse anzeigen.

    Screenshot der Dateiansicht in Lakehouse.

    Screenshot der Dateiansicht der kopierten Daten „Gesetzliche Feiertage“.

    Bei mehreren Partitionsspalten finden Sie, dass die Tabelle nach Land- oder Regionsnamen in verschiedene Ordner unterteilt wird.

    Screenshot, der den Ordner für Länder- oder Regionspartition zeigt.

    Wählen Sie einen Ordner aus, z. B. contryOrRegion=United States. Die durch den Namen des Landes oder der Region partitionierte Tabelle wird erneut durch den Wert der zweiten Spalte "isPaidTimeOff" partitioniert: True oder False oder __HIVE_DEFAULT_PARTITION__(stellt einen leeren Wert im Beispieldatensatz dar).

    Screenshot der Aufteilung von Land oder Region nach ispaidtimeoff.

    Ähnlich gilt: Wenn Sie drei Spalten hinzufügen, um die Tabelle zu partitionieren, erhalten Sie den Ordner der zweiten Ebene, der durch die dritte hinzugefügte Spalte partitioniert wird.

Als nächstes erfahren Sie mehr über das Kopieren von Azure Blob Storage in Lakehouse.