Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Important
Dieses Feature befindet sich in der Public Preview.
Lakeflow Designer enthält integrierte Operatoren für allgemeine Datenvorbereitungs- und Transformationsaufgaben. Öffnen Sie das Operatormenü im Seitenbereich auf der linken Seite, um Operatoren nach Kategorie zu durchsuchen, oder verwenden Sie die Suche nach einem Operator... am oberen Rand des Bereichs. Wenn Sie den Konfigurationsbereich eines Operators öffnen möchten, nachdem Sie ihn dem Zeichenbereich hinzugefügt haben, doppelklicken Sie darauf, oder halten Sie den Mauszeiger darauf, und klicken Sie auf (Operator 'Bearbeiten').
Quelle und Ausgabe
Source
Importiert Daten in Designer. Der Source-Operator liest aus einer Unity Catalog-Tabelle oder anderen unterstützten Quellen. Es hat zwei Phasen:
- Auswählen einer Tabelle oder Datei: Suchen Sie nach einer Tabelle oder Datei anhand des Namens, oder navigieren Sie nach Katalog und Schema. Sie können auch eine neue Tabelle aus diesem Bereich erstellen.
- Tabellenzusammenfassung: Nach dem Auswählen einer Tabelle zeigt der Konfigurationsbereich den Namen, den Besitzer und die uhrzeit der letzten Aktualisierung der Tabelle an. Klicken Sie auf " Neue Datenquelle auswählen ", um die Quelle zu ändern. Durch Das Ändern der Quelle wird der Ausgabecache für alle downstream-Operatoren ungültig.
Die vollständigen Datenaufnahmeoptionen finden Sie unter "Ingest data into Lakeflow Designer".
Output
Exportiert Daten aus Designer, indem Ergebnisse in eine Tabelle im Unity-Katalog geschrieben werden.
Geben Sie im Ausgabekonfigurationsbereich Folgendes an:
- Tabellenname: Der Name der zu erstellenden Tabelle.
- Ausgabespeicherort: Der Katalog und das Schema, in dem die Tabelle erstellt wird.
Klicken Sie auf "Ausführen" , um die Visuelle Datenvorbereitung auszuführen und Ergebnisse zu schreiben.
AI-Funktion
Führt einen integrierten KI-Vorgang für Ihre Daten aus. Öffnen Sie im Konfigurationsbereich die Option "Funktion auswählen ", und wählen Sie eine der folgenden Funktionen aus. Jede Funktion stellt Optionen im Bereich für Eingaben (z. B. Spalten, Eingabeaufforderungen, Bezeichnungen oder Sprachen) und Ausgaben zur Verfügung.
| Function | Beschreibung |
|---|---|
ai_analyze_sentiment |
Führt eine Stimmungsanalyse für Eingabetext durch. |
ai_classify |
Klassifiziert Text oder analysierte Dokumente mithilfe von Beschriftungen, die Sie bereitstellen. |
ai_extract |
Extrahiert strukturierte Daten aus Text oder analysierten Dokumenten mithilfe von Feldern, die Sie definieren. |
ai_fix_grammar |
Korrigiert Grammatikfehler in Text. |
ai_gen |
Antwort auf eine vom Benutzer bereitgestellte Eingabeaufforderung für die Eingabe. |
ai_mask |
Maskiert angegebene Entitäten im Text (z. B. für die Deidentifizierung). |
ai_similarity |
Vergleicht zwei Zeichenfolgen und gibt eine semantische Ähnlichkeitsbewertung zurück. |
ai_summarize |
Generiert eine Zusammenfassung von Text. |
ai_translate |
Übersetzt Text in eine von Ihnen angegebene Zielsprache. |
Transformations
Die folgenden Operatoren führen Transformationen für Ihre Daten durch.
Aggregat
Fasst Zeilen zusammen, indem Daten und Aggregatwerte gruppiert werden.
- Aggregieren nach: Wählen Sie eine Spalte aus, wählen Sie eine Aggregationsfunktion aus, und geben Sie einen Namen für die Ausgabespalte an. Klicken Sie auf +Aggregation hinzufügen , um weitere hinzuzufügen.
- Gruppieren nach: Wählen Sie die Spalten aus, nach der gruppiert werden soll. Klicken Sie auf +Gruppierung hinzufügen , um weitere hinzuzufügen.
Unterstützte Aggregationsfunktionen: AVG, COUNT, MAX, MEAN, MEDIAN, MIN, QUANTIL, STDDEV, SUMME, VARIANZ.
Note
Spalten, die in "Gruppieren nach " verwendet werden, werden automatisch in die Ausgabe einbezogen.
Kombinieren
Führt Daten aus zwei Tabellen mit übereinstimmenden Schemas in einer einzelnen Ausgabe zusammen.
- Set operation: Choose Union, Intersect, or Except.
- Zusammenführungsstrategie: Wählen Sie "Distinct " aus, um doppelte Zeilen aus der Ausgabe auszuschließen, oder "Alle ", um alle Zeilen einschließlich Duplikate beizubehalten.
Filter
Wählt übereinstimmende Zeilen aus, indem nur Zeilen beibehalten werden, die eine oder mehrere Bedingungen erfüllen, mithilfe eines grafischen Bedingungs-Generators. Wählen Sie für jede Bedingung eine Spalte, einen Bedingungstyp und einen Wert aus, der bedingt übereinstimmen soll.
Unterstützte Bedingungstypen:
- Ist gleich / Ist nicht gleich
- Ist einer von / Ist nicht einer von
- Enthält / enthält nicht
- Beginnt mit / Beginnt nicht mit
- Endet mit / Endet nicht mit
- Größer als / Kleiner als
- Is null / Is not null
Join
Verknüpft zwei Tabellen mit einem Schlüssel, indem zwei Eingabedatensätze basierend auf übereinstimmenden Spaltenwerten kombiniert werden.
So konfigurieren Sie eine Verknüpfung:
- Wählen Sie die beiden Eingabetabellen aus, die verknüpft werden sollen.
- Geben Sie mindestens eine Verknüpfungsbedingung an, indem Sie übereinstimmende Spalten aus den beiden Tabellen auswählen. Klicken Sie auf +Verknüpfungsausdruck hinzufügen , um weitere Bedingungen hinzuzufügen.
- Wählen Sie den Verknüpfungstyp aus: "Vollständiger Beitritt", "Innere Verknüpfung", "Linker Beitritt" oder "Rechtsbeitritt".
- Optional: Wählen Sie aus, welche Spalten in die Ausgabe einbezogen werden sollen. Standardmäßig sind alle Spalten aus beiden Tabellen enthalten. Doppelte Spaltennamen erhalten ein Tabellennamenpräfix.
- Optional: Fügen Sie benutzerdefinierte Ausdrucksspalten basierend auf dem verknüpften Ergebnis hinzu.
Limit
Schränkt die Zeilenanzahl ein, indem nur bis zur maximalen Anzahl von zeilen, die Sie angeben, durchlaufen werden.
Pivot
Formt tabellarische Daten in zwei Richtungen um. Verwenden Sie die Registerkarten oben im Konfigurationsbereich, um den Modus auszuwählen:
- Zeilen → Spalten (Pivot): Wandeln Sie unterschiedliche Werte in einer Spalte in neue Spaltenüberschriften um, und füllen Sie diese Spalten mit aggregierten Werten aus einer anderen Spalte aus.
- Spalten → Zeilen (Unpivot): Falten Sie eine oder mehrere Spalten in Zeilen; Namen für die Ausgabeschlüssel- und Wertspalten festlegen.
In Zeilen → Spaltenmodus :
- Pivotspalte: Wählen Sie die Spalte aus, deren unterschiedliche Werte zu den neuen Kopfzeilen werden.
- Wert und Aggregation: Wählen Sie die Spalte aus, deren Werte die pivotierten Zellen füllen, und wählen Sie eine Aggregationsfunktion aus (z. B. SUMME, AVG, ANZAHL, MIN oder MAX). Konfigurieren Sie, wie fehlende Werte behandelt werden (z. B. Null oder Null), wenn sie im Bereich verfügbar sind.
Wählen Sie im Modus "Spalten → Zeilen " die Spalten aus, die entpivott werden sollen, und konfigurieren Sie die Namen der Ausgabeschlüssel- und Wertspaltennamen.
Spalten einschließen: Verwenden Sie die Tabelle, um auszuwählen, welche Spalten zusammen mit den pivotierten oder nicht pivotierten Werten in der Ausgabe verbleiben (und um Spalten abzulegen, die Sie vor der Transformation nicht benötigen). Designer leitet feste Spalten (Gruppierung) aus den Spalten ab, die Sie nicht Pivot-, Wert- oder Unpivot-Rollen zuweisen.
Sortieren
Sortiert Zeilen in einer oder mehreren Spalten. Wählen Sie für jede Spalte ASC (aufsteigend) oder DESC (absteigend) aus. Klicken Sie auf +Sortierausdruck hinzufügen , um nach zusätzlichen Spalten zu sortieren. Die Sortierung folgt der lexikalischen Standardreihenfolge.
SQL
Schreibt benutzerdefinierten SQL-Code für eine Transformation, die nicht von den anderen Operatoren abgedeckt wird.
Geben Sie eine SQL-Anweisung SELECT im Editor ein. Um auf die Ausgabe eines Eingabeoperators zu verweisen, verwenden Sie den Namen dieses Operators als Tabellennamen in Ihrer Abfrage. Beispiel:
SELECT COUNT(*)
FROM aggregate_2
WHERE 1 = 1
Klicken Sie auf das Klicken Sie im Editor, um den vollständigen SQL-Codebereich zu öffnen und zu sehen, wie Ihre Anweisung in den vollständigen Workflow passt.
Umwandeln
Markiert, erstellt oder transformiert Spalten aus den Eingabedaten.
Im Bereich "Transformationskonfiguration":
- Spalten einschließen oder ausschließen: Verwenden Sie die Kontrollkästchen, um auszuwählen, welche Spalten an die Ausgabe übergeben werden. Klicken Sie auf das Kopfzeilenkontrollkästchen, um alle Spalten zu markieren oder die Auswahl zu deaktivieren.
- Umbenennen einer Spalte: Geben Sie einen neuen Namen in das Feld "Umbenennen " neben einer beliebigen Spalte ein.
- Spalten neu anordnen: Ziehen Sie den Ziehpunkt auf der linken Seite einer Zeile, um die Spaltenreihenfolge zu ändern.
- Fügen Sie eine benutzerdefinierte Spalte hinzu: Klicken Sie auf + Fügen Sie eine benutzerdefinierte Spalte hinzu, um den Ausdrucks-Editor zu öffnen. Siehe unten.
Benutzerdefinierte Spalten
Mit dem Ausdrucks-Editor können Sie neue Spalten mit natürlicher Sprache oder Code definieren. Der Editor verfügt über zwei Eingabefelder und ist bidirektional:
- Beschreibung: Geben Sie eine Beschreibung der natürlichen Sprache ein, was die Spalte tun soll. Designer verwendet Genie, um den entsprechenden Codeausdruck unten zu generieren.
- Ausdruck: Wenn Sie Code lieber direkt schreiben oder bearbeiten möchten, klicken Sie auf die Schaltfläche "Ausdruck bearbeiten". Durch das Bearbeiten des Ausdrucks wird automatisch eine Beschreibung der natürlichen Sprache generiert.
Um eine benutzerdefinierte Spalte zu entfernen, halten Sie den Mauszeiger über deren Zeile gedrückt, und klicken Sie auf das
Python
Führt benutzerdefinierte Python (PySpark) für die Eingabedaten aus. Ihr Code empfängt upstream-Datasets als Spark DataFrames und muss einen einzelnen DataFrame resultzuweisen, der die Ausgabe dieses Operators wird. Verwenden Sie den Konfigurationsbereich, um Eingaben zu verkabeln und alle vom Editor bereitgestellten Optionen zu überprüfen.
inputs["data"] ist eine Liste der Eingabedatenframes in der upstream-Reihenfolge. Im Detailbereich des Operators werden die Namen der einzelnen Eingaben in der reihenfolge angezeigt. Beispiel: Available inputs: inputs["data"][0] (customers), inputs["Data"][1] (sales)
Ein minimales Muster besteht darin, die erste Eingabe zu verwenden, wenn vorhanden oder ein leeres DataFrame andernfalls:
# inputs["data"] is a list of input DataFrames
result = inputs["data"][0] if inputs["data"] else spark.createDataFrame([], "col: string")
Von dort aus können Sie DataFrame-Vorgänge (z select. B. , , filter, withColumnoder Verknüpfungen) result vor dem Ende der Aufgabe verketten oder durch einen neuen DataFrame ersetzen result , der aus inputs["data"].
Organisation
Note
Fügt eine Notiz auf der Canvas hinzu, damit Sie den Workflow selbst dokumentieren können: zweck, Annahmen, Vorbehalte oder Übergabekontext für alle Benutzer, die die visuellen Daten später öffnen. Hinweisinhalte unterstützen Markdown, sodass Sie Überschriften, Listen, Links und Hervorhebung verwenden können, bei denen Nur-Text nicht ausreicht. Hinweise wirken sich nicht darauf aus, wie Daten durch Operatoren fließen.
Group
Gruppiert Operatoren auf dem Zeichenbereich, ohne zu ändern, wie Daten zwischen ihnen fließen – hilfreich, wenn eine visuelle Datenvorbereitung groß wird oder Sie logische Phasen widerspiegeln möchten.
So erstellen Sie eine Gruppe:
- Ziehen Sie Operatoren in eine Gruppe: Ziehen Sie einen oder mehrere Operatoren auf eine Gruppe, um sie hinzuzufügen.
- Erstellen Sie eine Gruppe aus einer Auswahl: Wählen Sie einen oder mehrere Operatoren aus, öffnen Sie das Kontextmenü (klicken Sie mit der rechten Maustaste), und wählen Sie " Neue Gruppe erstellen" aus, um die Auswahl in einer neuen Gruppe umzuschließen.
Nachdem sich Operatoren in einer Gruppe befinden, können Sie der Gruppe einen beschreibenden Namen geben und sie minimieren oder erweitern , um deren Inhalt auf der Canvas anzuzeigen oder auszublenden.