Inbyggda operatorer i Lakeflow Designer

Important

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Lakeflow Designer innehåller inbyggda operatorer för vanliga dataförberedelse- och transformeringsuppgifter. Öppna operatormenyn i sidopanelen till vänster för att bläddra bland operatorer efter kategori, eller använd Sök efter en operator... överst i panelen. Om du vill öppna en operators konfigurationsfönster när du har lagt till den på arbetsytan dubbelklickar du på den eller håller pekaren över den och klickar på pennikonen. (Redigera operator).

Källa och utdata

Source

Importerar data till Designer. Källoperatorn läser från en Unity Catalog-tabell eller andra källor som stöds. Den har två steg:

  1. Välj en tabell eller fil: Sök efter en tabell eller fil efter namn eller bläddra efter katalog och schema. Du kan också skapa en ny tabell från det här fönstret.
  2. Tabellsammanfattning: När du har valt en tabell visar konfigurationsfönstret tabellens namn, ägare och senaste uppdateringstid. Klicka på Välj en ny datakälla för att ändra källan. Om du ändrar källan ogiltigförklaras utdatacachen för alla underordnade operatorer.

Det fullständiga datainmatningsalternativet finns i Mata in data i Lakeflow Designer.

Resultat

Exporterar data från Designer genom att skriva resultat till en tabell i Unity Catalog.

I fönstret Utdatakonfiguration anger du:

  • Tabellnamn: Namnet på tabellen som ska skapas.
  • Utdataplats: Katalogen och schemat där tabellen skapas.

Klicka på Kör för att köra resultat för visuell dataförberedelse och skrivning.

AI-funktion

Kör en inbyggd AI-åtgärd på dina data. Öppna Välj en funktion i konfigurationsfönstret och välj någon av funktionerna nedan. Varje funktion visar alternativ i fönstret för indata (till exempel kolumner, prompter, etiketter eller språk) och utdata.

Function Description
ai_analyze_sentiment Utför attitydanalys på indatatext.
ai_classify Klassificerar text eller tolkade dokument med hjälp av etiketter som du anger.
ai_extract Extraherar strukturerade data från text eller tolkade dokument med hjälp av fält som du definierar.
ai_fix_grammar Korrigerar grammatiska fel i text.
ai_gen Besvarar en uppmaning från användaren mot indata.
ai_mask Maskerar angivna entiteter i text (till exempel för avidentifiering).
ai_similarity Jämför två strängar och returnerar en semantisk likhetspoäng.
ai_summarize Genererar en sammanfattning av text.
ai_translate Översätter text till ett målspråk som du anger.

Transformations

Följande operatorer utför transformeringar av dina data.

Aggregate

Sammanfattar rader genom att gruppera mängdvärden för data och databehandling.

  • Aggregera efter: Välj en kolumn, välj en aggregeringsfunktion och ange ett namn för utdatakolumnen. Klicka på + Lägg till sammansättning för att lägga till mer.
  • Gruppera efter: Välj de kolumner som ska grupperas efter. Klicka på + Lägg till gruppering för att lägga till mer.

Sammansättningsfunktioner som stöds: AVG, COUNT, MAX, MEAN, MEDIAN, MIN, PERCENTILE, STDDEV, SUM, VARIANCE.

Note

Kolumner som används i Gruppera efter inkluderas automatiskt i utdata.

Kombinera

Sammanfogar data från två tabeller med matchande scheman i en enda utdata.

  • Ange åtgärd: Välj Union, Intersect eller Except.
  • Sammanslagningsstrategi: Välj Distinkt om du vill undanta dubblettrader från utdata eller Alla för att behålla alla rader inklusive dubbletter.

Filter

Väljer matchande rader genom att endast behålla rader som uppfyller ett eller flera villkor med hjälp av en grafisk villkorsbyggare. För varje villkor väljer du en kolumn, en villkorstyp och ett värde som ska matchas villkorligt.

Villkorstyper som stöds:

  • Är lika med/är inte lika med
  • Är en av/är inte en av
  • Innehåller/innehåller inte
  • Börjar med/börjar inte med
  • Slutar med/slutar inte med
  • Större än/mindre än
  • Är null/är inte null

Ansluta

Länkar två tabeller på en nyckel genom att kombinera två indatauppsättningar baserat på matchande kolumnvärden.

Så här konfigurerar du en koppling:

  1. Välj de två indatatabeller som ska kopplas.
  2. Ange minst ett kopplingsvillkor genom att välja matchande kolumner från de två tabellerna. Klicka på + Lägg till kopplingsuttryck för att lägga till fler villkor.
  3. Välj kopplingstyp: Fullständig koppling, Inre koppling, Vänster koppling eller Höger koppling.
  4. Valfritt: Välj vilka kolumner som ska inkluderas i utdata. Som standard inkluderas alla kolumner från båda tabellerna. Duplicerade kolumnnamn får ett prefix för tabellnamn.
  5. Valfritt: Lägg till anpassade uttryckskolumner baserat på det anslutna resultatet.

Limit

Begränsar antalet rader genom att endast skicka igenom upp till det maximala antalet rader som du anger.

Pivot

Omformar tabelldata i två riktningar. Använd flikarna överst i konfigurationsfönstret för att välja läge:

  • Rader → kolumner (pivot): Omvandla distinkta värden i en kolumn till nya kolumnrubriker och fyll dessa kolumner med aggregerade värden från en annan kolumn.
  • Kolumner → rader (unpivot): Vik en eller flera kolumner i rader; ange namn för utdatanyckeln och värdekolumnerna.

I läget Rader → kolumner :

  • Pivotkolumn: Välj den kolumn vars distinkta värden blir de nya rubrikerna.
  • Värde & aggregering: Välj den kolumn vars värden fyller de pivoterade cellerna och välj en aggregeringsfunktion (till exempel SUM, AVG, COUNT, MIN eller MAX). Konfigurera hur saknade värden hanteras (till exempel null eller noll) om det är tillgängligt i fönstret.

I läget Kolumner → Rader väljer du de kolumner som ska avpivotas och konfigurerar kolumnnamnen för utdatanyckeln och värdet.

Inkludera kolumner: Använd tabellen för att välja vilka kolumner som ska ligga kvar i utdata tillsammans med de pivoterade eller opivoterade värdena (och för att släppa kolumner som du inte behöver före omvandlingen). Designern härleder fasta kolumner (gruppering) från de kolumner som du inte tilldelar till pivoterings-, värde- eller opivotroller.

Sortera

Beställer rader på en eller flera kolumner. För varje kolumn väljer du ASC (stigande) eller DESC (fallande). Klicka på + Lägg till sorteringsuttryck för att sortera efter ytterligare kolumner. Sortering följer standardlexisk ordning.

SQL

Skriver anpassad SQL-kod för alla transformeringar som inte omfattas av de andra operatorerna.

Skriv en SQL-instruktion SELECT i redigeraren. Om du vill referera till utdata för en indataoperator använder du operatorns namn som tabellnamn i frågan. Som exempel:

SELECT COUNT(*)
FROM aggregate_2
WHERE 1 = 1

Klicka på kodikonen. i redigeraren för att öppna det fullständiga SQL-kodfönstret och se hur instruktionen passar in i det fullständiga arbetsflödet.

Omvandla

Väljer, skapar eller transformerar kolumner från indata.

I fönstret Transformera konfiguration:

  • Inkludera eller exkludera kolumner: Använd kryssrutorna för att välja vilka kolumner som ska skickas till utdata. Klicka på kryssrutan rubrik för att markera alla kolumner eller avmarkera markeringen.
  • Byt namn på en kolumn: Skriv ett nytt namn i fältet Byt namn bredvid valfri kolumn.
  • Ändra ordning på kolumner: Dra handtaget till vänster på en rad för att ändra kolumnordningen.
  • Lägg till en anpassad kolumn: Klicka på + Lägg till en anpassad kolumn för att öppna uttrycksredigeraren. Se nedan.

Anpassade kolumner

Med uttrycksredigeraren kan du definiera nya kolumner med antingen naturligt språk eller kod. Redigeraren har två indatarutor och är dubbelriktad:

  • Beskrivning: Ange en beskrivning av det naturliga språket för det du vill att kolumnen ska göra. Designer använder Genie för att generera motsvarande koduttryck nedan.
  • Uttryck: Om du föredrar att skriva eller redigera kod direkt klickar du på knappen Redigera uttryck. När du redigerar uttrycket genereras automatiskt en beskrivning av naturligt språk.

Om du vill ta bort en anpassad kolumn håller du pekaren över raden och klickar på Streckikonen..

Python

Kör anpassade Python (PySpark) på indata. Koden tar emot överordnade datamängder som Spark DataFrames och måste tilldela en enda DataFrame till result, som blir den här operatorns utdata. Använd konfigurationsfönstret för att koppla indata och granska eventuella alternativ som redigeraren tillhandahåller.

inputs["data"] är en lista över indatadataramar i uppströmsordning. Informationsfönstret för operatorn visar namnen på varje indata i ordning. Till exempel Available inputs: inputs["data"][0] (customers), inputs["Data"][1] (sales).

Ett minimalt mönster är att använda de första indata när de finns, eller en tom DataFrame på annat sätt:

# inputs["data"] is a list of input DataFrames

result = inputs["data"][0] if inputs["data"] else spark.createDataFrame([], "col: string")

Därifrån kan du länka DataFrame-åtgärder (till exempel , , eller kopplingar) result innan tilldelningen avslutas eller ersätta result med en ny DataFrame som skapats från inputs["data"]. withColumnfilterselect

Organisation

Note

Lägger till en anteckning på arbetsytan så att du kan dokumentera själva arbetsflödet: dess syfte, antaganden, varningar eller överlämningskontext för alla som öppnar förberedelsen av visuella data senare. Anteckningsinnehåll stöder Markdown, så du kan använda rubriker, listor, länkar och betoning där oformaterad text inte räcker. Anteckningar påverkar inte hur data flödar via operatorer.

Group

Grupperar operatorer visuellt på arbetsytan utan att ändra hur data flödar mellan dem – användbart när en visuell dataförberedelse blir stor eller om du vill återspegla logiska faser.

Så här skapar du en grupp:

  • Dra operatorer till en grupp: Dra en eller flera operatorer till en grupp om du vill lägga till dem i den.
  • Skapa en grupp från en markering: Välj en eller flera operatorer, öppna snabbmenyn (högerklicka) och välj Skapa ny grupp för att omsluta markeringen i en ny grupp.

När operatorerna är i en grupp kan du ge gruppen ett beskrivande namn och minimera eller expandera den för att visa eller dölja innehållet på arbetsytan.

Nästa steg