Integrierte Operatoren in Lakeflow Designer

Important

Dieses Feature befindet sich in der Public Preview.

Lakeflow Designer enthält integrierte Operatoren für allgemeine Datenvorbereitungs- und Transformationsaufgaben. Öffnen Sie das Operatormenü im Seitenbereich auf der linken Seite, um Operatoren nach Kategorie zu durchsuchen, oder verwenden Sie die Suche nach einem Operator... am oberen Rand des Bereichs. Wenn Sie den Konfigurationsbereich eines Operators öffnen möchten, nachdem Sie ihn dem Zeichenbereich hinzugefügt haben, doppelklicken Sie darauf, oder halten Sie den Mauszeiger darauf, und klicken Sie auf das Bleistiftsymbol. (Operator 'Bearbeiten').

Quelle und Ausgabe

Source

Importiert Daten in Designer. Der Source-Operator liest aus einer Unity Catalog-Tabelle oder anderen unterstützten Quellen. Es hat zwei Phasen:

  1. Auswählen einer Tabelle oder Datei: Suchen Sie nach einer Tabelle oder Datei anhand des Namens, oder navigieren Sie nach Katalog und Schema. Sie können auch eine neue Tabelle aus diesem Bereich erstellen.
  2. Tabellenzusammenfassung: Nach dem Auswählen einer Tabelle zeigt der Konfigurationsbereich den Namen, den Besitzer und die uhrzeit der letzten Aktualisierung der Tabelle an. Klicken Sie auf " Neue Datenquelle auswählen ", um die Quelle zu ändern. Durch Das Ändern der Quelle wird der Ausgabecache für alle downstream-Operatoren ungültig.

Die vollständigen Datenaufnahmeoptionen finden Sie unter "Ingest data into Lakeflow Designer".

Output

Exportiert Daten aus Designer, indem Ergebnisse in eine Tabelle im Unity-Katalog geschrieben werden.

Geben Sie im Ausgabekonfigurationsbereich Folgendes an:

  • Tabellenname: Der Name der zu erstellenden Tabelle.
  • Ausgabespeicherort: Der Katalog und das Schema, in dem die Tabelle erstellt wird.

Klicken Sie auf "Ausführen" , um die Visuelle Datenvorbereitung auszuführen und Ergebnisse zu schreiben.

AI-Funktion

Führt einen integrierten KI-Vorgang für Ihre Daten aus. Öffnen Sie im Konfigurationsbereich die Option "Funktion auswählen ", und wählen Sie eine der folgenden Funktionen aus. Jede Funktion stellt Optionen im Bereich für Eingaben (z. B. Spalten, Eingabeaufforderungen, Bezeichnungen oder Sprachen) und Ausgaben zur Verfügung.

Function Beschreibung
ai_analyze_sentiment Führt eine Stimmungsanalyse für Eingabetext durch.
ai_classify Klassifiziert Text oder analysierte Dokumente mithilfe von Beschriftungen, die Sie bereitstellen.
ai_extract Extrahiert strukturierte Daten aus Text oder analysierten Dokumenten mithilfe von Feldern, die Sie definieren.
ai_fix_grammar Korrigiert Grammatikfehler in Text.
ai_gen Antwort auf eine vom Benutzer bereitgestellte Eingabeaufforderung für die Eingabe.
ai_mask Maskiert angegebene Entitäten im Text (z. B. für die Deidentifizierung).
ai_similarity Vergleicht zwei Zeichenfolgen und gibt eine semantische Ähnlichkeitsbewertung zurück.
ai_summarize Generiert eine Zusammenfassung von Text.
ai_translate Übersetzt Text in eine von Ihnen angegebene Zielsprache.

Transformations

Die folgenden Operatoren führen Transformationen für Ihre Daten durch.

Aggregat

Fasst Zeilen zusammen, indem Daten und Aggregatwerte gruppiert werden.

  • Aggregieren nach: Wählen Sie eine Spalte aus, wählen Sie eine Aggregationsfunktion aus, und geben Sie einen Namen für die Ausgabespalte an. Klicken Sie auf +Aggregation hinzufügen , um weitere hinzuzufügen.
  • Gruppieren nach: Wählen Sie die Spalten aus, nach der gruppiert werden soll. Klicken Sie auf +Gruppierung hinzufügen , um weitere hinzuzufügen.

Unterstützte Aggregationsfunktionen: AVG, COUNT, MAX, MEAN, MEDIAN, MIN, QUANTIL, STDDEV, SUMME, VARIANZ.

Note

Spalten, die in "Gruppieren nach " verwendet werden, werden automatisch in die Ausgabe einbezogen.

Kombinieren

Führt Daten aus zwei Tabellen mit übereinstimmenden Schemas in einer einzelnen Ausgabe zusammen.

  • Set operation: Choose Union, Intersect, or Except.
  • Zusammenführungsstrategie: Wählen Sie "Distinct " aus, um doppelte Zeilen aus der Ausgabe auszuschließen, oder "Alle ", um alle Zeilen einschließlich Duplikate beizubehalten.

Filter

Wählt übereinstimmende Zeilen aus, indem nur Zeilen beibehalten werden, die eine oder mehrere Bedingungen erfüllen, mithilfe eines grafischen Bedingungs-Generators. Wählen Sie für jede Bedingung eine Spalte, einen Bedingungstyp und einen Wert aus, der bedingt übereinstimmen soll.

Unterstützte Bedingungstypen:

  • Ist gleich / Ist nicht gleich
  • Ist einer von / Ist nicht einer von
  • Enthält / enthält nicht
  • Beginnt mit / Beginnt nicht mit
  • Endet mit / Endet nicht mit
  • Größer als / Kleiner als
  • Is null / Is not null

Join

Verknüpft zwei Tabellen mit einem Schlüssel, indem zwei Eingabedatensätze basierend auf übereinstimmenden Spaltenwerten kombiniert werden.

So konfigurieren Sie eine Verknüpfung:

  1. Wählen Sie die beiden Eingabetabellen aus, die verknüpft werden sollen.
  2. Geben Sie mindestens eine Verknüpfungsbedingung an, indem Sie übereinstimmende Spalten aus den beiden Tabellen auswählen. Klicken Sie auf +Verknüpfungsausdruck hinzufügen , um weitere Bedingungen hinzuzufügen.
  3. Wählen Sie den Verknüpfungstyp aus: "Vollständiger Beitritt", "Innere Verknüpfung", "Linker Beitritt" oder "Rechtsbeitritt".
  4. Optional: Wählen Sie aus, welche Spalten in die Ausgabe einbezogen werden sollen. Standardmäßig sind alle Spalten aus beiden Tabellen enthalten. Doppelte Spaltennamen erhalten ein Tabellennamenpräfix.
  5. Optional: Fügen Sie benutzerdefinierte Ausdrucksspalten basierend auf dem verknüpften Ergebnis hinzu.

Limit

Schränkt die Zeilenanzahl ein, indem nur bis zur maximalen Anzahl von zeilen, die Sie angeben, durchlaufen werden.

Pivot

Formt tabellarische Daten in zwei Richtungen um. Verwenden Sie die Registerkarten oben im Konfigurationsbereich, um den Modus auszuwählen:

  • Zeilen → Spalten (Pivot): Wandeln Sie unterschiedliche Werte in einer Spalte in neue Spaltenüberschriften um, und füllen Sie diese Spalten mit aggregierten Werten aus einer anderen Spalte aus.
  • Spalten → Zeilen (Unpivot): Falten Sie eine oder mehrere Spalten in Zeilen; Namen für die Ausgabeschlüssel- und Wertspalten festlegen.

In Zeilen → Spaltenmodus :

  • Pivotspalte: Wählen Sie die Spalte aus, deren unterschiedliche Werte zu den neuen Kopfzeilen werden.
  • Wert und Aggregation: Wählen Sie die Spalte aus, deren Werte die pivotierten Zellen füllen, und wählen Sie eine Aggregationsfunktion aus (z. B. SUMME, AVG, ANZAHL, MIN oder MAX). Konfigurieren Sie, wie fehlende Werte behandelt werden (z. B. Null oder Null), wenn sie im Bereich verfügbar sind.

Wählen Sie im Modus "Spalten → Zeilen " die Spalten aus, die entpivott werden sollen, und konfigurieren Sie die Namen der Ausgabeschlüssel- und Wertspaltennamen.

Spalten einschließen: Verwenden Sie die Tabelle, um auszuwählen, welche Spalten zusammen mit den pivotierten oder nicht pivotierten Werten in der Ausgabe verbleiben (und um Spalten abzulegen, die Sie vor der Transformation nicht benötigen). Designer leitet feste Spalten (Gruppierung) aus den Spalten ab, die Sie nicht Pivot-, Wert- oder Unpivot-Rollen zuweisen.

Sortieren

Sortiert Zeilen in einer oder mehreren Spalten. Wählen Sie für jede Spalte ASC (aufsteigend) oder DESC (absteigend) aus. Klicken Sie auf +Sortierausdruck hinzufügen , um nach zusätzlichen Spalten zu sortieren. Die Sortierung folgt der lexikalischen Standardreihenfolge.

SQL

Schreibt benutzerdefinierten SQL-Code für eine Transformation, die nicht von den anderen Operatoren abgedeckt wird.

Geben Sie eine SQL-Anweisung SELECT im Editor ein. Um auf die Ausgabe eines Eingabeoperators zu verweisen, verwenden Sie den Namen dieses Operators als Tabellennamen in Ihrer Abfrage. Beispiel:

SELECT COUNT(*)
FROM aggregate_2
WHERE 1 = 1

Klicken Sie auf das Symbol Klicken Sie im Editor, um den vollständigen SQL-Codebereich zu öffnen und zu sehen, wie Ihre Anweisung in den vollständigen Workflow passt.

Umwandeln

Markiert, erstellt oder transformiert Spalten aus den Eingabedaten.

Im Bereich "Transformationskonfiguration":

  • Spalten einschließen oder ausschließen: Verwenden Sie die Kontrollkästchen, um auszuwählen, welche Spalten an die Ausgabe übergeben werden. Klicken Sie auf das Kopfzeilenkontrollkästchen, um alle Spalten zu markieren oder die Auswahl zu deaktivieren.
  • Umbenennen einer Spalte: Geben Sie einen neuen Namen in das Feld "Umbenennen " neben einer beliebigen Spalte ein.
  • Spalten neu anordnen: Ziehen Sie den Ziehpunkt auf der linken Seite einer Zeile, um die Spaltenreihenfolge zu ändern.
  • Fügen Sie eine benutzerdefinierte Spalte hinzu: Klicken Sie auf + Fügen Sie eine benutzerdefinierte Spalte hinzu, um den Ausdrucks-Editor zu öffnen. Siehe unten.

Benutzerdefinierte Spalten

Mit dem Ausdrucks-Editor können Sie neue Spalten mit natürlicher Sprache oder Code definieren. Der Editor verfügt über zwei Eingabefelder und ist bidirektional:

  • Beschreibung: Geben Sie eine Beschreibung der natürlichen Sprache ein, was die Spalte tun soll. Designer verwendet Genie, um den entsprechenden Codeausdruck unten zu generieren.
  • Ausdruck: Wenn Sie Code lieber direkt schreiben oder bearbeiten möchten, klicken Sie auf die Schaltfläche "Ausdruck bearbeiten". Durch das Bearbeiten des Ausdrucks wird automatisch eine Beschreibung der natürlichen Sprache generiert.

Um eine benutzerdefinierte Spalte zu entfernen, halten Sie den Mauszeiger über deren Zeile gedrückt, und klicken Sie auf das Strichsymbol.

Python

Führt benutzerdefinierte Python (PySpark) für die Eingabedaten aus. Ihr Code empfängt upstream-Datasets als Spark DataFrames und muss einen einzelnen DataFrame resultzuweisen, der die Ausgabe dieses Operators wird. Verwenden Sie den Konfigurationsbereich, um Eingaben zu verkabeln und alle vom Editor bereitgestellten Optionen zu überprüfen.

inputs["data"] ist eine Liste der Eingabedatenframes in der upstream-Reihenfolge. Im Detailbereich des Operators werden die Namen der einzelnen Eingaben in der reihenfolge angezeigt. Beispiel: Available inputs: inputs["data"][0] (customers), inputs["Data"][1] (sales)

Ein minimales Muster besteht darin, die erste Eingabe zu verwenden, wenn vorhanden oder ein leeres DataFrame andernfalls:

# inputs["data"] is a list of input DataFrames

result = inputs["data"][0] if inputs["data"] else spark.createDataFrame([], "col: string")

Von dort aus können Sie DataFrame-Vorgänge (z select. B. , , filter, withColumnoder Verknüpfungen) result vor dem Ende der Aufgabe verketten oder durch einen neuen DataFrame ersetzen result , der aus inputs["data"].

Organisation

Note

Fügt eine Notiz auf der Canvas hinzu, damit Sie den Workflow selbst dokumentieren können: zweck, Annahmen, Vorbehalte oder Übergabekontext für alle Benutzer, die die visuellen Daten später öffnen. Hinweisinhalte unterstützen Markdown, sodass Sie Überschriften, Listen, Links und Hervorhebung verwenden können, bei denen Nur-Text nicht ausreicht. Hinweise wirken sich nicht darauf aus, wie Daten durch Operatoren fließen.

Group

Gruppiert Operatoren auf dem Zeichenbereich, ohne zu ändern, wie Daten zwischen ihnen fließen – hilfreich, wenn eine visuelle Datenvorbereitung groß wird oder Sie logische Phasen widerspiegeln möchten.

So erstellen Sie eine Gruppe:

  • Ziehen Sie Operatoren in eine Gruppe: Ziehen Sie einen oder mehrere Operatoren auf eine Gruppe, um sie hinzuzufügen.
  • Erstellen Sie eine Gruppe aus einer Auswahl: Wählen Sie einen oder mehrere Operatoren aus, öffnen Sie das Kontextmenü (klicken Sie mit der rechten Maustaste), und wählen Sie " Neue Gruppe erstellen" aus, um die Auswahl in einer neuen Gruppe umzuschließen.

Nachdem sich Operatoren in einer Gruppe befinden, können Sie der Gruppe einen beschreibenden Namen geben und sie minimieren oder erweitern , um deren Inhalt auf der Canvas anzuzeigen oder auszublenden.

Nächste Schritte