Ingebouwde operators in Lakeflow Designer

Important

Deze functie bevindt zich in openbare preview-versie.

Lakeflow Designer bevat ingebouwde operators voor algemene gegevensvoorbereidings- en transformatietaken. Open het operatormenu in het zijpaneel aan de linkerkant om door operators per categorie te bladeren of gebruik Zoeken naar een operator... bovenaan het deelvenster. Als u het configuratievenster van een operator wilt openen nadat u het aan het canvas hebt toegevoegd, dubbelklikt u erop of houdt u de aanwijzer erop en klikt u op het potloodpictogram. (Operator bewerken).

Bron en uitvoer

Bron

Hiermee importeert u gegevens in Designer. De bronoperator leest uit een Unity Catalog-tabel of andere ondersteunde bronnen. Het heeft twee fasen:

  1. Selecteer een tabel of bestand: zoek op naam naar een tabel of bestand of blader per catalogus en schema. U kunt ook een nieuwe tabel maken vanuit dit deelvenster.
  2. Tabelsamenvatting: Nadat u een tabel hebt geselecteerd, wordt in het configuratiedeelvenster de naam, de eigenaar en de laatst bijgewerkte tijd van de tabel weergegeven. Klik op Een nieuwe gegevensbron selecteren om de bron te wijzigen. Als u de bron wijzigt, wordt de uitvoercache voor alle downstreamoperators ongeldig.

Zie Gegevens opnemen in Lakeflow Designer voor het volledige scala aan opties voor gegevensopname.

Uitvoer

Hiermee exporteert u gegevens uit Designer door resultaten naar een tabel in Unity Catalog te schrijven.

Geef in het deelvenster Uitvoerconfiguratie het volgende op:

  • Tabelnaam: de naam van de tabel die moet worden gemaakt.
  • Uitvoerlocatie: De catalogus en het schema waarin de tabel wordt gemaakt.

Klik op Uitvoeren om de visualgegevensvoorbereiding uit te voeren en resultaten te schrijven.

AI-functie

Voert een ingebouwde AI-bewerking uit op uw gegevens. Open een functie selecteren in het configuratiedeelvenster en kies een van de onderstaande functies. Elke functie bevat opties in het deelvenster voor invoer (bijvoorbeeld kolommen, prompts, labels of talen) en uitvoer.

Function Description
ai_analyze_sentiment Voert sentimentanalyse uit op invoertekst.
ai_classify Classificeert tekst of geparseerde documenten met behulp van labels die u opgeeft.
ai_extract Extraheert gestructureerde gegevens uit tekst of geparseerde documenten met behulp van velden die u definieert.
ai_fix_grammar Corrigeert grammaticale fouten in tekst.
ai_gen Beantwoordt een door de gebruiker verstrekte prompt op basis van de invoer.
ai_mask Opgegeven entiteiten in tekst maskeren (bijvoorbeeld voor de identificatie).
ai_similarity Vergelijkt twee tekenreeksen en retourneert een semantische overeenkomstenscore.
ai_summarize Hiermee wordt een samenvatting van de tekst gegenereerd.
ai_translate Hiermee wordt tekst omgezet in een doeltaal die u opgeeft.

Transformations

De volgende operators voeren transformaties uit op uw gegevens.

Aggregate

Hiermee worden rijen samengevat door gegevens te groeperen en geaggregeerde waarden te berekenen.

  • Aggregeren op: Selecteer een kolom, kies een aggregatiefunctie en geef een naam op voor de uitvoerkolom. Klik op + Aggregatie toevoegen om meer toe te voegen.
  • Groeperen op: Selecteer de kolommen om op te groeperen. Klik op + Groeperen toevoegen om meer toe te voegen.

Ondersteunde aggregatiefuncties: AVG, COUNT, MAX, MEAN, MEDIAN, MIN, PERCENTIEL, STDDEV, SOM, VARIANTIE.

Note

Kolommen die in Group by worden gebruikt, worden automatisch opgenomen in de uitvoer.

Combineren

Hiermee worden gegevens uit twee tabellen samengevoegd met overeenkomende schema's in één uitvoer.

  • Bewerking instellen: Kies Union, Intersect of Except.
  • Samenvoegstrategie: Kies Distinct om dubbele rijen uit de uitvoer uit te sluiten, of Alles om alle rijen inclusief duplicaten te behouden.

Filter

Selecteert overeenkomende rijen door alleen rijen te bewaren die voldoen aan een of meer voorwaarden, met behulp van een grafische opbouwfunctie voor voorwaarden. Selecteer voor elke voorwaarde een kolom, een voorwaardetype en een waarde die voorwaardelijk moet overeenkomen.

Ondersteunde voorwaardetypen:

  • Is gelijk aan/ Is niet gelijk aan
  • Is een van / Is niet een van
  • Bevat / Bevat niet
  • Begint met / Begint niet met
  • Eindigt met / Eindigt niet met
  • Groter dan/Kleiner dan
  • Is null/is niet null

Join

Koppelt twee tabellen aan een sleutel door twee invoergegevenssets te combineren op basis van overeenkomende kolomwaarden.

Een join configureren:

  1. Selecteer de twee invoertabellen die u wilt samenvoegen.
  2. Geef ten minste één joinvoorwaarde op door overeenkomende kolommen in de twee tabellen te selecteren. Klik op + Join-expressie toevoegen om meer voorwaarden toe te voegen.
  3. Selecteer het jointype: Volledige join, Inner join, Left join of Right join.
  4. Optioneel: kies welke kolommen u wilt opnemen in de uitvoer. Standaard worden alle kolommen uit beide tabellen opgenomen. Dubbele kolomnamen ontvangen een tabelnaamvoorvoegsel.
  5. Optioneel: Aangepaste expressiekolommen toevoegen op basis van het samengevoegde resultaat.

Limit

Hiermee wordt het aantal rijen beperkt door alleen het maximum aantal rijen dat u opgeeft door te geven.

Pivot

Wijzigt tabelgegevens in twee richtingen. Gebruik de tabbladen boven aan het configuratiedeelvenster om de modus te kiezen:

  • Rijen → kolommen (draai): Zet afzonderlijke waarden in één kolom om in nieuwe kolomkoppen en vul deze kolommen met geaggregeerde waarden uit een andere kolom.
  • Kolommen → rijen (draaitabel opheffen): Vouw een of meer kolommen in rijen; stel namen in voor de uitvoersleutel- en waardekolommen.

In de modus Rijen → Kolommen :

  • Draaikolom: kies de kolom waarvan de afzonderlijke waarden de nieuwe koppen worden.
  • Waarde en aggregatie: Kies de kolom waarvan de waarden de cellen vullen en selecteer een aggregatiefunctie (bijvoorbeeld SOM, GEM, AANTAL, MIN of MAX). Configureer hoe ontbrekende waarden worden verwerkt (bijvoorbeeld null of nul), indien beschikbaar in het deelvenster.

Selecteer in de modus Kolommen → Rijen de kolommen om de draai- en waardekolomnamen op te heffen en te configureren.

Kolommen opnemen: Gebruik de tabel om te kiezen welke kolommen in de uitvoer blijven staan naast de gedraaide of niet-gepivoteerde waarden (en om kolommen te verwijderen die u niet nodig hebt voor de transformatie). Designer wijst vaste (groeperings)kolommen af van de kolommen die u niet toewijst aan draaitabel-, waarde- of draaitabelrollen.

Sort

Rijen ordenen op een of meer kolommen. Kies voor elke kolom ASC (oplopend) of DESC (aflopend). Klik op + Sorteerexpressie toevoegen om te sorteren op extra kolommen. Sorteren volgt de standaard lexicale volgorde.

SQL

Hiermee schrijft u aangepaste SQL-code voor transformaties die niet worden gedekt door de andere operators.

Typ een SQL-instructie SELECT in de editor. Als u naar de uitvoer van een invoeroperator wilt verwijzen, gebruikt u de naam van die operator als de tabelnaam in uw query. Voorbeeld:

SELECT COUNT(*)
FROM aggregate_2
WHERE 1 = 1

Klik op het codepictogram. Knop in de editor om het volledige deelvenster SQL-code te openen en te zien hoe uw instructie in de volledige werkstroom past.

Transformeren

Hiermee worden kolommen geselecteerd, gemaakt of getransformeerd op basis van de invoergegevens.

In het deelvenster Transformatieconfiguratie:

  • Kolommen opnemen of uitsluiten: gebruik de selectievakjes om te kiezen welke kolommen worden doorgegeven aan de uitvoer. Klik op het selectievakje koptekst om alle kolommen te selecteren of de selectie te wissen.
  • De naam van een kolom wijzigen: typ een nieuwe naam in het veld Naam wijzigen naast een kolom.
  • Kolommen opnieuw ordenen: sleep de greep aan de linkerkant van een rij om de kolomvolgorde te wijzigen.
  • Een aangepaste kolom toevoegen: Klik op + Voeg een aangepaste kolom toe om de expressie-editor te openen. Zie hieronder.

Aangepaste kolommen

Met de expressie-editor kunt u nieuwe kolommen definiëren met natuurlijke taal of code. De editor heeft twee invoervakken en is bidirectioneel:

  • Beschrijving: Typ een beschrijving in natuurlijke taal van wat u wilt doen in de kolom. Designer gebruikt Genie om de bijbehorende code-expressie hieronder te genereren.
  • Expressie: Als u liever rechtstreeks code schrijft of bewerkt, klikt u op de knop Expressie bewerken. Als u de expressie bewerkt, wordt automatisch een beschrijving van natuurlijke taal gegenereerd.

Als u een aangepaste kolom wilt verwijderen, houdt u de aanwijzer boven de rij en klikt u op het pictogram Streepje.

Python

Voert aangepaste Python (PySpark) uit op de invoergegevens. Uw code ontvangt upstream-gegevenssets als Spark DataFrames en moet één DataFrame toewijzen aan result, wat de uitvoer van deze operator wordt. Gebruik het configuratiedeelvenster om invoer te koppelen en alle opties te bekijken die de editor biedt.

inputs["data"] is een lijst met invoergegevensframes, in upstream-volgorde. In het detailvenster van de operator ziet u de namen van elke invoer, in volgorde. Bijvoorbeeld: Available inputs: inputs["data"][0] (customers), inputs["Data"][1] (sales).

Een minimaal patroon is het gebruik van de eerste invoer wanneer deze aanwezig is, of een leeg DataFrame, anders:

# inputs["data"] is a list of input DataFrames

result = inputs["data"][0] if inputs["data"] else spark.createDataFrame([], "col: string")

Van daaruit kunt u DataFrame-bewerkingen (bijvoorbeeld select, withColumnfilterof joins) result koppelen voordat de toewijzing wordt beëindigd, of vervangen door result een nieuw DataFrame dat is gebouwd op basis van inputs["data"].

Organisatie

Note

Voegt een notitie toe aan het canvas, zodat u de werkstroom zelf kunt documenteren: het doel, de veronderstellingen, opmerkingen of handoff-context voor iedereen die de visualgegevensvoorbereiding later opent. Opmerking-inhoud ondersteunt Markdown, zodat u koppen, lijsten, koppelingen en nadruk kunt gebruiken waar tekst zonder opmaak niet voldoende is. Notities hebben geen invloed op de wijze waarop gegevens stromen via operators.

Group

Hiermee worden operators op het canvas visueel gegroepeerd zonder te wijzigen hoe gegevens ertussen stromen. Dit is handig wanneer een visualgegevensvoorbereiding groot wordt of als u logische fasen wilt weergeven.

Een groep maken:

  • Sleep operators naar een groep: sleep een of meer operators naar een groep om ze toe te voegen.
  • Een groep maken op basis van een selectie: Selecteer een of meerdere operators, open het contextmenu (klik met de rechtermuisknop) en kies Nieuwe groep maken om de selectie in een nieuwe groep te verpakken.

Nadat operators zich in een groep bevinden, kunt u de groep een beschrijvende naam geven en deze minimaliseren of uitvouwen om de inhoud ervan op het canvas weer te geven of te verbergen.

Volgende stappen