Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Important
Questa funzionalità è in Anteprima Pubblica.
Lakeflow Designer include operatori predefiniti per attività comuni di preparazione e trasformazione dei dati. Aprire il menu dell'operatore nel pannello laterale a sinistra per visualizzare gli operatori per categoria oppure usare Cerca un operatore... nella parte superiore del pannello. Per aprire il riquadro di configurazione di un operatore dopo averlo aggiunto all'area di disegno, fare doppio clic o tenere premuto il puntatore su di esso e fare clic (Operatore Modifica).
Origine e output
Source
Importa i dati in Progettazione. L'operatore Source legge da una tabella di Unity Catalog o da altre origini supportate. Ha due fasi:
- Selezione di una tabella o di un file: cercare una tabella o un file in base al nome oppure sfogliare in base al catalogo e allo schema. È anche possibile creare una nuova tabella da questo riquadro.
- Riepilogo tabella: dopo aver selezionato una tabella, il riquadro di configurazione mostra il nome, il proprietario e l'ora dell'ultimo aggiornamento della tabella. Fare clic su Selezionare una nuova origine dati per modificare l'origine. La modifica dell'origine invalida la cache di output per tutti gli operatori downstream.
Per l'intera gamma di opzioni di inserimento dati, vedere Inserire dati in LakeFlow Designer.
Output
Esporta i dati dalla finestra di progettazione scrivendo risultati in una tabella in Unity Catalog.
Nel riquadro Configurazione output specificare:
- Nome tabella: nome della tabella da creare.
- Percorso di output: catalogo e schema in cui viene creata la tabella.
Fare clic su Esegui per eseguire la preparazione dei dati visivi e scrivere i risultati.
Funzione di intelligenza artificiale
Esegue un'operazione di intelligenza artificiale predefinita sui dati. Nel riquadro di configurazione aprire Selezionare una funzione e scegliere una delle funzioni seguenti. Ogni funzione espone le opzioni nel riquadro per gli input( ad esempio colonne, richieste, etichette o lingue) e output.
| Function | Descrizione |
|---|---|
ai_analyze_sentiment |
Esegue l'analisi del sentiment sul testo di input. |
ai_classify |
Classifica il testo o i documenti analizzati usando le etichette fornite. |
ai_extract |
Estrae dati strutturati da documenti di testo o analizzati usando i campi definiti. |
ai_fix_grammar |
Corregge gli errori grammaticali nel testo. |
ai_gen |
Risponde a una richiesta fornita dall'utente sull'input. |
ai_mask |
Maschera le entità specificate nel testo, ad esempio per la de-identificazione. |
ai_similarity |
Confronta due stringhe e restituisce un punteggio di somiglianza semantica. |
ai_summarize |
Genera un riepilogo del testo. |
ai_translate |
Converte il testo in una lingua di destinazione specificata. |
Transformations
Gli operatori seguenti eseguono trasformazioni sui dati.
Aggregazione
Riepiloga le righe raggruppando i dati e calcolando i valori aggregati.
- Aggregazione per: selezionare una colonna, scegliere una funzione di aggregazione e specificare un nome per la colonna di output. Fare clic su + Aggiungi aggregazione per aggiungere altro.
- Raggruppa per: selezionare le colonne per cui raggruppare. Fare clic su + Aggiungi raggruppamento per aggiungere altro.
Funzioni di aggregazione supportate: AVG, COUNT, MAX, MEAN, MEDIAN, MIN, PERCENTILE, STDDEV, SUM, VARIANCE.
Note
Le colonne usate in Group by vengono incluse automaticamente nell'output.
Combinare
Unisce i dati di due tabelle con schemi corrispondenti in un singolo output.
- Impostare l'operazione: scegliere Unione, Intersect o Except.
- Strategia di merge: scegliere Distinct per escludere righe duplicate dall'output o Tutte per mantenere tutte le righe incluse quelle duplicate.
Filter
Seleziona le righe corrispondenti mantenendo solo le righe che soddisfano una o più condizioni, usando un generatore di condizioni grafiche. Per ogni condizione, selezionare una colonna, un tipo di condizione e un valore per la corrispondenza condizionale.
Tipi di condizione supportati:
- Uguale a / Non è uguale a
- È uno di / non è uno di
- Contiene/Non contiene
- Inizia con / Non inizia con
- Termina con / non termina con
- Maggiore di / Minore di
- Null/Is not null
Unisciti.
Collega due tabelle in una chiave combinando due set di dati di input in base ai valori di colonna corrispondenti.
Per configurare un join:
- Selezionare le due tabelle di input da unire.
- Specificare almeno una condizione di join selezionando le colonne corrispondenti nelle due tabelle. Fare clic su + Aggiungi espressione di join per aggiungere altre condizioni.
- Selezionare il tipo di join: Full join, Inner join, Left join o Right join.
- Facoltativo: scegliere le colonne da includere nell'output. Per impostazione predefinita, vengono incluse tutte le colonne di entrambe le tabelle. I nomi di colonna duplicati ricevono un prefisso del nome di tabella.
- Facoltativo: aggiungere colonne di espressioni personalizzate in base al risultato unito.
Limit
Limita il numero di righe passando solo fino al numero massimo di righe specificato.
Pivot
Rimodellare i dati tabulari in due direzioni. Usare le schede nella parte superiore del riquadro di configurazione per scegliere la modalità:
- Righe → Colonne (pivot): trasformare valori distinti in una colonna in nuove intestazioni di colonna e riempire tali colonne con valori aggregati di un'altra colonna.
- Colonne → righe (unpivot): piegare una o più colonne in righe; impostare i nomi per le colonne chiave di output e valore.
In Modalità Righe → Colonne :
- Colonna Pivot: scegliere la colonna i cui valori distinti diventano le nuove intestazioni.
- Valore e aggregazione: scegliere la colonna i cui valori riempiono le celle con pivot e selezionare una funzione di aggregazione, ad esempio SUM, AVG, COUNT, MIN o MAX. Configurare la modalità di gestione dei valori mancanti ,ad esempio Null o zero, se disponibile nel riquadro.
In Colonne → modalità Righe selezionare le colonne da annullare e configurare i nomi di colonna chiave e valore di output.
Includi colonne: usare la tabella per scegliere quali colonne rimangono nell'output insieme ai valori con pivot o senza pivot (e per eliminare le colonne non necessarie prima della trasformazione). Progettazione deduce colonne fisse (raggruppamento) dalle colonne che non si assegnano a ruoli pivot, valore o unpivot.
Sort
Ordina righe su una o più colonne. Per ogni colonna scegliere ASC (crescente) o DESC (decrescente). Fare clic su + Aggiungi espressione di ordinamento per ordinare in base a colonne aggiuntive. L'ordinamento segue l'ordinamento lessicale standard.
SQL
Scrive codice SQL personalizzato per qualsiasi trasformazione non coperta dagli altri operatori.
Digitare un'istruzione SQL SELECT nell'editor. Per fare riferimento all'output di un operatore di input, usare il nome dell'operatore come nome della tabella nella query. Per esempio:
SELECT COUNT(*)
FROM aggregate_2
WHERE 1 = 1
Fare clic per aprire il riquadro del codice SQL completo e verificare il modo in cui l'istruzione rientra nel flusso di lavoro completo.
Trasformazione
Seleziona, crea o trasforma colonne dai dati di input.
Nel riquadro Trasforma configurazione:
- Includi o escludi colonne: usare le caselle di controllo per scegliere le colonne passate all'output. Fare clic sulla casella di controllo intestazione per selezionare tutte le colonne o deselezionare la selezione.
- Rinominare una colonna: digitare un nuovo nome nel campo Rinomina accanto a qualsiasi colonna.
- Riordinare le colonne: trascinare l'handle sul lato sinistro di una riga per modificare l'ordine delle colonne.
- Aggiungere una colonna personalizzata: fare clic su + Aggiungi una colonna personalizzata per aprire l'editor di espressioni. Vedere di seguito.
Colonne personalizzate
L'editor di espressioni consente di definire nuove colonne usando il linguaggio naturale o il codice. L'editor ha due caselle di input ed è bidirezionale:
- Descrizione: digitare una descrizione del linguaggio naturale di ciò che si vuole fare la colonna. Progettazione usa Genie per generare l'espressione di codice corrispondente seguente.
- Espressione: se si preferisce scrivere o modificare direttamente il codice, fare clic sul pulsante Modifica espressione. La modifica dell'espressione genera automaticamente una descrizione del linguaggio naturale.
Per rimuovere una colonna personalizzata, tenere premuto il puntatore sulla riga e fare clic su .
Python
Esegue Python personalizzate (PySpark) sui dati di input. Il codice riceve set di dati upstream come dataframe Spark e deve assegnare un singolo dataframe a result, che diventa l'output dell'operatore. Usare il riquadro di configurazione per collegare gli input ed esaminare le opzioni fornite dall'editor.
inputs["data"] è un elenco di dataframe di input, in ordine upstream. Il riquadro dei dettagli dell'operatore mostra i nomi di ogni input, in ordine. Ad esempio: Available inputs: inputs["data"][0] (customers), inputs["Data"][1] (sales).
Un modello minimo consiste nell'usare il primo input quando presente o un dataframe vuoto in caso contrario:
# inputs["data"] is a list of input DataFrames
result = inputs["data"][0] if inputs["data"] else spark.createDataFrame([], "col: string")
Da qui è possibile concatenare le operazioni del dataframe (ad esempio, , , o join) result prima che l'assegnazione termini o sostituire result con un nuovo dataframe compilato da inputs["data"]. withColumnfilterselect
Organizzazione
Note
Aggiunge una nota nell'area di disegno in modo da poter documentare il flusso di lavoro stesso: scopo, presupposti, avvertenze o contesto di consegna per chiunque apra la preparazione dei dati visivi in un secondo momento. Il contenuto della nota supporta Markdown, in modo da poter usare intestazioni, elenchi, collegamenti ed enfasi in cui il testo normale non è sufficiente. Le note non influiscono sul flusso dei dati attraverso gli operatori.
Group
Raggruppa visivamente gli operatori nell'area di disegno senza modificare il modo in cui i dati vengono trasmessi tra di essi, utili quando una preparazione dei dati visuali aumenta di dimensioni elevate o si vuole riflettere le fasi logiche.
Per compilare un gruppo:
- Operatori di trascinamento in un gruppo: trascinare uno o più operatori in un gruppo per aggiungerli.
- Creare un gruppo da una selezione: selezionare uno o più operatori, aprire il menu di scelta rapida (clic con il pulsante destro del mouse) e scegliere Crea nuovo gruppo per eseguire il wrapping della selezione in un nuovo gruppo.
Dopo che gli operatori si trovano in un gruppo, è possibile assegnare al gruppo un nome descrittivo e ridurlo a icona o espanderlo per visualizzarne o nascondere il contenuto nell'area di disegno.