Configurare e modificare le attività nei processi Lakeflow

Questo articolo è incentrato sulle istruzioni per la creazione, la configurazione e la modifica di attività usando l'interfaccia utente dell'area di lavoro Processi e pipeline .

Azure Databricks gestisce le attività come componenti dei Jobs di Lakeflow. Un lavoro ha uno o più compiti. Si crea un nuovo processo nell'interfaccia utente dell'area di lavoro configurando la prima attività. Per configurare un nuovo processo, vedere Configurare e modificare processi Lakeflow.

Ogni attività ha una risorsa di calcolo associata che esegue la logica dell'attività. Se si usa serverless, Azure Databricks configura le risorse di calcolo. Se non si usa serverless, vedere Configurare le risorse di calcolo per i processi.

Azure Databricks include altri punti di ingresso e strumenti per la configurazione delle attività, tra cui:

Creare o configurare un'attività

Per modificare un'attività esistente o aggiungere una nuova attività con l'interfaccia utente dell'area di lavoro, selezionare un processo esistente seguendo questa procedura:

  1. Nella barra laterale dell'area di lavoro Azure Databricks fare clic su Jobs & Pipeline.
  2. Opzionalmente, selezionare i filtri Attività e Di mia proprietà.
  3. Fare clic sul Nome del collegamento del proprio lavoro.
  4. Fare clic sulla scheda Attività . Viene visualizzato il grafico delle attività.
  5. Per modificare un'attività, fare clic sul nome dell'attività. La configurazione dell'attività viene visualizzata sotto il grafico delle attività.
  6. Per aggiungere un'attività, fare clic su Aggiungi pulsante attività.

Tipi di attività

Le opzioni di configurazione e le istruzioni variano in base all'attività. Sono disponibili i tipi di attività seguenti:

Clonare un'attività

Clonare le attività per copiare tutte le configurazioni di un'attività esistente, incluse le dipendenze upstream.

Per clonare un'attività, eseguire le operazioni seguenti:

  1. Selezionare l'attività nel grafico delle attività.
  2. Fare clic sul pulsante Clona attività.
  3. Specificare un nome di attività clonato e fare clic su Clona.

Disabilitare un'attività

Disabilitare un'attività per ignorarla durante l'esecuzione senza rimuoverla dal compito. L'attività mantiene la sua configurazione e cronologia di esecuzione, in modo da poterla riabilitare in un secondo momento senza ricostruire l'attività.

Gli scenari comuni per la disabilitazione di un'attività includono quanto segue:

  • Esclusione temporanea di un'attività durante il debug di un problema upstream senza perdere le impostazioni dell'attività.
  • Sospensione di un'attività interrotta in modo che il resto del processo continui a essere eseguito in base alla pianificazione.
  • Mantenere intatto il Grafico Aciclico Diretto (DAG) e la cronologia di esecuzione del lavoro mentre si decide se rimuovere un'attività.

Per disabilitare un'attività in un lavoro:

  1. Apri il job e seleziona l'attività nel DAG.
  2. Fare clic su Disabilita icona grande cerchio. per disattivare l'attività.

Per riabilitare un'attività disabilitata, selezionare l'attività e fare clic sull'icona Controlla cerchio.

Per ignorare un'attività per una singola esecuzione senza modificare le impostazioni del processo, usare invece Esegui un processo con impostazioni diverse .

Per informazioni su come le attività disabilitate influiscono sulle attività downstream, sulle riparazioni e sulle esecuzioni parziali, vedere Attività disabilitate nei Processi Lakeflow.

Eliminare un'attività

Per eliminare un'attività, eseguire le operazioni seguenti:

  1. Selezionare l'attività nel grafico delle attività.
  2. Fare clic su Cestino e selezionare Elimina attività.

Per mantenere la configurazione e la cronologia di esecuzione dell'attività anziché eliminarla, disabilitare l'attività.

Copiare il percorso di un'attività

Alcuni tipi di attività, ad esempio le attività del notebook, consentono di copiare il percorso nel codice sorgente dell'attività:

  1. Fare clic sulla scheda Attività.
  2. Selezionare l'attività contenente il percorso da copiare.
  3. Fare clic su Icona di copia dei processi accanto al percorso del task per copiarlo nella clipboard.

Impostazioni attività avanzate

Le seguenti impostazioni avanzate controllano i tentativi di ripetizione per le attività non riuscite e le politiche di timeout per le attività non responsive.

Annotazioni

È possibile impostare le notifiche a livello di attività o di processo. Vedere Aggiungere notifiche in un processo.

Impostare un criterio di ripetizione dei tentativi

L'impostazione predefinita per le ripetizioni dei compiti dipende dalla configurazione del lavoro. Per la maggior parte delle configurazioni, l'impostazione predefinita non ritenta alcuna attività in caso di errore dell'attività.

I processi di lavoro serverless ottimizzano automaticamente i tentativi di ritentare per impostazione predefinita. Consultare Configurare l'ottimizzazione automatica del calcolo serverless per disabilitare i tentativi di ripetizione

Le attività continue usano un criterio di ripetizione con backoff esponenziale. Vedere Come vengono gestiti gli errori per i processi continui?.

Per configurare un criterio che determina quando e quante volte vengono ritentate le esecuzioni di attività non riuscite, fare clic su + Aggiungi accanto a Tentativi.

L'intervallo di ripetizione dei tentativi viene calcolato in millisecondi tra l'inizio dell'esecuzione non riuscita e l'esecuzione successiva dei tentativi.

Annotazioni

Se si configurano sia timeout che tentativi, il timeout si applica a ogni tentativo.

Configurare le soglie per la durata dell'esecuzione di un'attività o per le metriche del backlog di streaming

Importante

L'osservabilità dello streaming per le attività Lakeflow è disponibile in anteprima pubblica.

È possibile configurare soglie facoltative per la durata dell'esecuzione dell'attività o le metriche del backlog di streaming. Per configurare le soglie di durata o le soglie delle metriche di streaming, fare clic su soglie delle metriche nel pannello di configurazione dell'attività.

Per configurare le soglie di durata dell'attività, inclusi i tempi di completamento previsti e massimi per l'attività, selezionare Durata dell'esecuzione nel menu a discesa Metrica. Immettere una durata nel campo Avviso per configurare il tempo di completamento previsto delle attività. Se l'esecuzione dell'attività supera questa soglia, viene attivato un evento. Per configurare un tempo di completamento massimo per un'attività, immettere la durata massima nel campo Timeout . Se l'attività non viene completata in questa fase, Azure Databricks imposta lo stato su "Timed Out".

Per configurare una soglia per una metrica di backlog di streaming, selezionare la metrica nel menu a discesa metrica e immettere un valore per la soglia. Per informazioni sulle metriche specifiche supportate da un'origine di streaming, vedere Visualizzare le metriche per le attività di streaming.

Immettere una durata nel campo Avviso per configurare il tempo di completamento previsto dell'attività. Se l'attività supera questa soglia, viene attivato un evento. È possibile usare questo evento per notificare quando un'attività è in esecuzione lentamente. Vedere Configurare le notifiche per i processi lenti.

Per configurare un tempo di completamento massimo per un'attività, immettere la durata massima nel campo Timeout . Se l'attività non viene completata in questa fase, Azure Databricks imposta lo stato su "Timed Out".

Se viene attivato un evento perché viene superata una soglia, è possibile usare l'evento per inviare una notifica. Vedere Configurare le notifiche per i processi lenti.