Erstellen einer visuellen Datenvorbereitung im Lakeflow-Designer

Important

Dieses Feature befindet sich in der Public Preview.

Mit Lakeflow Designer können Sie Datentransformationsworkflows auf einem visuellen, drag-and-drop-Canvas erstellen. Auf dieser Seite wird erläutert, wie Sie eine visuelle Datenvorbereitung erstellen – vom Hinzufügen einer Datenquelle und dem Verkettenden von Operatoren bis hin zur Vorschau der Ergebnisse und dem Speichern im Unity Catalog.

So erstellen Sie eine visuelle Datenvorbereitung:

  1. Überprüfen der Anforderungen
  2. Erstellen einer visuellen Datenvorbereitung
  3. Hinzufügen einer Datenquelle
  4. Hinzufügen und Konfigurieren von Operatoren
  5. Verbinden von Operatoren
  6. Vorschau der Ergebnisse
  7. Schreiben von Ergebnissen in den Unity-Katalog
  8. Planung oder Ausführung im Produktionsbetrieb

Anforderungen

Um Lakeflow Designer zu verwenden, müssen Sie folgendes haben:

  • Ein Azure Databricks-Arbeitsbereich mit aktiviertem Unity-Katalog.
  • CAN USE Berechtigung für mindestens eine Rechenressource (entweder serverlos oder Allzweck).
  • Azure Databricks AI assistive Funktionen aktiviert. Wenn ein Modell in Ihrer Region nicht verfügbar ist, müssen Sie möglicherweise auch die geoübergreifende Verarbeitung aktivieren.

Erstellen einer neuen visuellen Datenvorbereitung

Um eine neue visuelle Datenvorbereitung zu erstellen, klicken Sie auf das Plussymbol.Neu in der Randleiste, und wählen Sie visual data prep aus.

Der Designer wird mit einer Willkommensseite geöffnet, auf der Sie eine Datenquelle hinzufügen oder eine Beispieldatei für visuelle Daten untersuchen können.

Hinzufügen einer Datenquelle

Jeder Designerworkflow beginnt mit einer oder mehreren Datenquellen. Der Source-Operator stellt eine Datenquelle auf dem Zeichenbereich dar.

So fügen Sie eine Datenquelle hinzu:

  1. Fügen Sie einen Source-Operator hinzu. Klicken Sie auf der Willkommensseite auf den Quelloperator auswählen. Öffnen Sie in der Arbeitsfläche das Operatormenü und wählen Sie "Quelle" aus.
  2. Wählen Sie im Bereich "Quellkonfiguration" aus, wie Ihre Daten angezeigt werden sollen. Sie können nach einer vorhandenen Tabelle suchen, eine lokale CSV- oder Excel-Datei hochladen, eine Tabelle aus einer Datei erstellen oder aus Google Drive oder SharePoint importieren.
  3. Wählen Sie Ihre Datenquelle aus, oder konfigurieren Sie sie. Der Source-Operator erscheint auf der Leinwand.

Sie können auch eine CSV- oder Excel-Datei direkt auf den Zeichenbereich ziehen und ablegen, um schnell einen Quelloperator zu erstellen.

Um die Quelle später zu ändern, öffnen Sie den Source-Operator, und klicken Sie auf "Neue Datenquelle auswählen". Durch Das Ändern der Quelle wird der Ausgabecache für alle downstream-Operatoren ungültig.

Ausführliche Informationen zu den einzelnen Aufnahmeoptionen finden Sie unter "Daten aufnehmen" in Lakeflow Designer.

Hinzufügen und Konfigurieren von Operatoren

Um einen Operator hinzuzufügen, öffnen Sie das Operatormenü im Seitenbereich auf der linken Seite der Arbeitsfläche. Klicken Sie auf einen Operator, um ihn dem Zeichenbereich hinzuzufügen, oder ziehen Sie einen Operator aus dem Menü auf den Zeichenbereich. Sie können auch auf die + Schaltfläche neben einem beliebigen vorhandenen Operator klicken, um einen neuen Operator mit einer automatischen Verbindung hinzuzufügen.

LFD-Bedienermenü mit Drag-and-Drop auf die Leinwand.

Um einen Operator zu konfigurieren, doppelklicken Sie darauf, oder halten Sie den Mauszeiger darauf, und klicken Sie auf Bleistiftsymbol. (Bearbeitungsoperator), um den Konfigurationsbereich zu öffnen. Legen Sie die Optionen für diesen Operatortyp fest, und klicken Sie dann auf Übernehmen.

Ausführliche Informationen zu jedem verfügbaren Operator finden Sie unter integrierten Operatoren in Lakeflow Designer.

Verbinden von Operatoren

Um zwei Operatoren zu verbinden, klicken und ziehen Sie vom Ausgabepunkt (dem kleinen Kreis am rechten Rand eines Operators) zum Eingabepunkt (dem kleinen Kreis am linken Rand des nächsten Operators). Dies gibt an, dass Daten vom ersten Operator in die zweite fließen. Daten fließen von links nach rechts durch die Visuelle Datenvorbereitung.

LFD-Canvas mit einer Verbindung zwischen zwei Operatoren.

Einige Operatoren, z. B. Join und Combine, akzeptieren mehrere Eingaben.

Verwenden von Genie Code

Sie können jederzeit während der Bearbeitung im Lakeflow-Designer Aufforderungen zu Genie Code erstellen, um Hilfe zu erhalten.

LFD Genie Code-Eingabeaufforderung

Bei Verwendung von Genie Code bieten die folgenden Schaltflächen zusätzliche Funktionen:

  • Bildsymbol. : Lädt ein Bild hoch, das als Teil der Eingabeaufforderung verwendet werden soll.
  • Bei Icons. : Verwenden Sie, um Objekte wie Tabellen oder Dateien zu erwähnen, die als Teil der Eingabeaufforderung verwendet werden sollen.
  • Sprachblase plus Symbol. : Startet einen neuen Chatthread mit neuem Agentkontext.
  • Reader-Modus-Symbol. : Öffnet den seitlichen Bereich für den Gesprächsverlauf und bietet eine umfassendere Ansicht der Aktivitäten des Agents.

Vorschau der Ergebnisse

Wählen Sie einen beliebigen Operator aus, um die Ergebnisse im Ausgabebereich am unteren Rand des Bildschirms anzuzeigen. Bei den meisten Operatortypen befindet sich die Eingabedaten auf der linken Seite, und die Ausgabedaten sind rechts.

LFD-Ausgabebereich unterhalb des Zeichenbereichs.

Standardmäßig werden Operatoren auf einer Stichprobe der Daten von bis zu 1.000 Zeilen ausgeführt. Um das vollständige Dataset auszuführen, klicken Sie im Ausgabebereich auf Beispiel-Dataset und wechseln Sie zu Vollständiges Dataset.

Warning

Die Ausführung mit dem vollständigen Datensatz führt alle Upstream-Operatoren mit dem vollständigen, unlimitierten Datensatz erneut aus und kann lange dauern.

Datenprofilierung

Im Ausgabebereich können Sie auswählen, dass Details zu den Daten in der Ausgabe angezeigt werden. Wählen Sie in der oberen rechten Ecke des Ausgabebereichs das Randleistensymbol aus. Die Randleistenschaltfläche , um die Auswahldetails zu öffnen. Wählen Sie eine Teilmenge Ihrer Daten aus, um Details zur Auswahl anzuzeigen.

Randleiste mit Diagrammen und Details zu den ausgewählten Ausgabedaten.

Schreiben von Ergebnissen in den Unity-Katalog

Fügen Sie einen Ausgabeoperator hinzu, um Ihre Ergebnisse in eine Tabelle im Unity-Katalog zu schreiben:

  1. Öffnen Sie das Operatormenü, wählen Sie "Ausgabe" aus, oder klicken Sie neben + dem letzten Operator, und wählen Sie "Ausgabe" aus.
  2. Verbinden Sie den Ausgabehandle Ihrer letzten Transformation mit dem Eingabehandle des Ausgabeoperators , wenn dies noch nicht verbunden ist.
  3. Doppelklicken Sie auf den Ausgabeoperator , um den Konfigurationsbereich zu öffnen.
  4. Geben Sie einen Tabellennamen ein, und wählen Sie den Ausgabespeicherort (Katalog und Schema) aus.
  5. Klicken Sie auf Ausführen.

Planen oder in Produktion ausführen

Sie können Ihre Workflows automatisieren, indem Sie sie als Aufträge planen.

  • Direkt planen: Klicken Sie im oberen Menü auf die Schaltfläche "Planen", um einen geplanten Auftrag für Ihre visuelle Datenaufbereitung zu erstellen.
  • Zu einem Job hinzufügen: Erstellen Sie einen Azure Databricks Job, und wählen Sie Ihre Designer Visual Data Prep als Aufgabe aus. Damit können Sie die visuelle Datenvorbereitung mit anderen Aufgaben in einer größeren Pipeline kombinieren.

LFD-Zeitsteuerung zum Automatisieren einer visuellen Datenaufbereitung als Aufgabe.

Weitere Tipps beim Arbeiten im Zeichenbereich

Die folgenden Aktionen stehen auf der Leinwand zur Verfügung, um Ihre Visual Data Prep zu bearbeiten.

  • Benennen Sie einen Operator um: Klicken Sie oben im Konfigurationsbereich auf das Textfeld, um den Operator umzubenennen. Beschreibende Namen machen das Verständnis der visuellen Daten auf einen Blick einfacher. Einige Operatoren, z. B. der SQL-Operator, können anhand des Namens auf die Ausgabe anderer Operatoren verweisen.
  • Kopieren Sie einen Operator: Halten Sie den Mauszeiger über einen Operator, und klicken Sie auf das Symbol , oder wählen Sie einen Operator aus, und drücken Sie DANN CMD/STRG+V.
  • Automatisches Layout: Klicken Sie auf das horizontale DAG-Symbol. Klicken Sie in der unteren linken Symbolleiste, um alle Operatoren in einem kompakten Layout automatisch anzuordnen.
  • Ansicht anpassen: Klicken Sie auf Zoom, um das Symbol anzupassen. In der unteren linken Symbolleiste werden alle Operatoren im aktuellen Viewport angezeigt.
  • Rückgängigmachen und Wiederholen: Drücken Sie CMD/STRG+Z und CMD/STRG+UMSCHALT+Z, oder verwenden Sie die Schaltflächen in der oberen Symbolleiste.

Nächste Schritte