Come creare una preparazione dei dati visivi in Lakeflow Designer

Important

Questa funzionalità è in Anteprima Pubblica.

Lakeflow Designer permette di costruire workflow di trasformazione dati su un canvas visivo drag-and-drop. Questa pagina illustra come creare una preparazione dei dati visuale, dall'aggiunta di un'origine dati e un concatenamento degli operatori all'anteprima dei risultati e alla scrittura in Unity Catalog.

Creare una preparazione visiva dei dati:

  1. Verificare i requisiti
  2. Creazione di un tool di preparazione dati visiva
  3. Aggiungi un'origine dati
  4. Aggiungere e configurare operatori
  5. Operatori connetti
  6. Visualizzare in anteprima i risultati
  7. Scrivere risultati in Unity Catalog
  8. Pianificare o eseguire nell'ambiente di produzione

Requisiti

Per usare Lakeflow Designer, è necessario disporre di:

  • Un'area di lavoro di Azure Databricks con Il catalogo Unity abilitato.
  • CAN USE autorizzazione per almeno una risorsa di calcolo (serverless o per tutti gli scopi).
  • Azure Databricks funzionalità assistive di intelligenza artificiale abilitate. Se un modello non è disponibile nell'area, potrebbe essere necessario abilitare anche l'elaborazione tra aree geografiche.

Creare una nuova preparazione visiva dei dati

Per creare una nuova preparazione dei dati visivi, fare clic sull'icona Più.Novità nella barra laterale e selezionare Preparazione dati visivi.

Designer si apre con una schermata iniziale in cui puoi aggiungere un'origine dati o esplorare un esempio di preparazione dati visiva.

Aggiungere un'origine dati

Ogni flusso di lavoro di Progettazione inizia con una o più origini dati. L'operatore Source rappresenta un'origine dati sul canvas.

Per aggiungere un'origine dati:

  1. Aggiungere un operatore Source. Nella schermata iniziale fare clic su Seleziona operatore di origine. Nell'area di disegno aprire il menu dell'operatore e selezionare Origine.
  2. Nel riquadro Configurazione origine scegliere come inserire i dati. È possibile cercare una tabella esistente, caricare un file CSV locale o Excel, creare una tabella da un file o importare da Google Drive o SharePoint.
  3. Selezionare o configurare l'origine dati. L'operatore Source viene visualizzato nell'area di disegno.

È anche possibile trascinare e rilasciare un file CSV o Excel direttamente nell'area di disegno per creare rapidamente un operatore Source.

Per modificare l'origine in un secondo momento, aprire l'operatore Source e fare clic su Seleziona una nuova origine dati. La modifica dell'origine invalida la cache di output per tutti gli operatori downstream.

Per informazioni dettagliate su ogni opzione di inserimento, vedere Inserire dati in LakeFlow Designer.

Aggiungere e configurare operatori

Per aggiungere un operatore, aprire il menu dell'operatore nel pannello laterale a sinistra dell'area di disegno. Fare clic su un operatore per aggiungerlo all'area di disegno oppure trascinare un operatore dal menu nell'area di disegno. È anche possibile fare clic sul + pulsante accanto a qualsiasi operatore esistente per aggiungere un nuovo operatore con una connessione automatica.

Menu dell'operatore LFD con drag and drop sul canvas.

Per configurare un operatore, fare doppio clic su di esso oppure tenere premuto il puntatore su di esso e fare clic sull'icona a forma di matita (operatore Modifica) per aprire il riquadro di configurazione. Impostare le opzioni per il tipo di operatore, quindi fare clic su Applica.

Per informazioni dettagliate su ogni operatore disponibile, vedere Operatori predefiniti in Lakeflow Designer.

Collega operatori

Per connettere due operatori, fare clic e trascinare dall'handle di output (il piccolo cerchio sul bordo destro di un operatore) all'handle di input (il piccolo cerchio sul bordo sinistro dell'operatore successivo). Specifica che i dati vengono trasmessi dal primo operatore al secondo. I dati fluiscono da sinistra a destra attraverso la preparazione visiva dei dati.

Area di disegno LFD che mostra una connessione tra due operatori.

Alcuni operatori, ad esempio Join e Combine, accettano più input.

Usare il codice Genie

In qualsiasi momento durante la modifica in Lakeflow Designer, è possibile creare richieste al codice Genie per facilitare l'operazione.

Richiesta codice LFD Genie

Quando si usa Genie Code, i pulsanti seguenti offrono funzionalità aggiuntive:

  • Icona immagine. : carica un'immagine da usare come parte del prompt.
  • In icon. : usare per menzionare oggetti, ad esempio tabelle o file, da usare come parte del prompt.
  • Icona di riconoscimento vocale più icona. : avvia un nuovo thread di chat con il nuovo contesto dell'agente.
  • Icona modalità lettore. : apre il pannello laterale per la cronologia delle conversazioni e una visualizzazione più dettagliata delle operazioni dell'agente.

Visualizzare in anteprima i risultati

Selezionare qualsiasi operatore per visualizzare i risultati nel riquadro di output nella parte inferiore della schermata. Per la maggior parte dei tipi di operatore, i dati di input si trova a sinistra e i dati di output si trova a destra.

Riquadro di output LFD sotto l'area di disegno.

Per impostazione predefinita, gli operatori vengono eseguiti su un campione dei dati di massimo 1.000 righe. Per eseguire con il dataset completo, fare clic su set di dati di esempio nel pannello di output e passare a set di dati completo.

Avvertimento

L'esecuzione con il set di dati completo esegue nuovamente tutti gli operatori upstream con il set di dati completo e non associato e può richiedere molto tempo.

Profilatura dei dati

Nel riquadro di output è possibile scegliere di visualizzare i dettagli dei dati nell'output. Nell'angolo superiore destro del riquadro di output scegliere l'icona Barra laterale. Per aprire i dettagli della selezione, scegliere il pulsante Barra laterale. Selezionare un subset dei dati per visualizzare i dettagli sulla selezione.

Barra laterale che mostra grafici e dettagli sui dati di output selezionati.

Scrivere risultati in Unity Catalog

Aggiungere un operatore Output per scrivere i risultati in una tabella nel catalogo unity:

  1. Aprire il menu dell'operatore e selezionare Output oppure fare clic + accanto all'ultimo operatore e selezionare Output.
  2. Connettere l'handle di output dell'ultima trasformazione all'handle di input dell'operatore Output se non è già connesso.
  3. Fare doppio clic sull'operatore Output per aprire il relativo riquadro di configurazione.
  4. Digitare un nome di tabella e selezionare il percorso di output (catalogo e schema).
  5. Fare clic su Esegui.

Pianificare o eseguire nell'ambiente di produzione

È possibile automatizzare i flussi di lavoro pianificandoli come processi.

  • Pianifica direttamente: fare clic sul pulsante Pianifica nel menu in alto per creare un processo pianificato per la preparazione dei dati visivi.
  • Aggiungi a un processo: creare un processo Azure Databricks e scegliere la preparazione dei dati visivi di Progettazione come attività. In questo modo è possibile combinare la preparazione dei dati visivi con altre attività in una pipeline più grande.

Controllo della pianificazione LFD per l'automazione di un processo di preparazione dei dati visivi.

Suggerimenti aggiuntivi quando si lavora nell'area di disegno

Nell'area di disegno sono disponibili le azioni seguenti che consentono di modificare la preparazione dei dati visivi.

  • Rinominare un operatore: fare clic sul campo di testo nella parte superiore di qualsiasi riquadro di configurazione per rinominare l'operatore. I nomi descrittivi rendono più facile, a colpo d'occhio, la preparazione visiva dei dati. Alcuni operatori, ad esempio l'operatore SQL, possono fare riferimento all'output di altri operatori in base al nome.
  • Copiare un operatore: tenere premuto il puntatore su un operatore e fare clic sull'icona Copia oppure selezionare un operatore e premere CMD/CTRL+C , quindi CMD/CTRL+V.
  • Layout automatico: fare clic sull'icona orizzontale DAG. Nella barra degli strumenti in basso a sinistra per disporre automaticamente tutti gli operatori in un layout compatto.
  • Adatta visualizzazione: fare clic su Zoom per adattarsi all'icona. Nella barra degli strumenti in basso a sinistra per visualizzare tutti gli operatori nel riquadro di visualizzazione corrente.
  • Annulla e ripeti: Premi Cmd/Ctrl+Z e Cmd/Ctrl+Shift+Z, oppure usa i pulsanti nella barra degli strumenti superiore.

Passaggi successivi