Acquisire i dati dagli Hub eventi in formato Delta Lake

Questo articolo illustra come usare l'editor senza codice per acquisire automaticamente i dati di streaming in Hub eventi in un account Azure Data Lake Storage Gen2 in formato Delta Lake.

Prerequisiti

  • È necessario rendere le risorse Hub eventi di Azure e Azure Data Lake Storage Gen2 accessibili pubblicamente. Non posizionarli dietro un firewall o proteggerli in un Rete virtuale di Azure.
  • È necessario serializzare i dati negli hub eventi in formato JSON, CSV o Avro.

Configurare un processo per acquisire i dati

Usare la procedura seguente per configurare un processo di Analisi di flusso per acquisire i dati in Azure Data Lake Storage Gen2.

  1. Nel portale di Azure passare all'hub eventi.

  2. Selezionare Funzioni>Elabora dati e selezionare Avvia nella scheda Acquisire dati in formato Delta Lake su ADLS Gen2.
    Screenshot che mostra le schede di avvio dati di Process Event Hubs.

    In alternativa, selezionare Funzionalità>Acquisizione e selezionare l'opzione Delta Lake sotto Formato di serializzazione degli eventi di output. Selezionare quindi Avvia configurazione di Acquisizione dati. Screenshot che mostra il punto di ingresso della creazione dei dati acquisiti.

  3. Immettere un nome per identificare il processo di Analisi di flusso. Selezionare Crea.
    Screenshot che mostra la finestra Nuovo processo di Analisi di flusso in cui si immette il nome del processo.

  4. Specificare il tipo di serializzazione dei dati in Hub eventi e il metodo di autenticazione usato dal processo per connettersi a Hub eventi. Selezionare Connetti. Screenshot che mostra la configurazione della connessione di Hub eventi.

  5. Quando la connessione viene stabilita correttamente, viene visualizzato quanto riportato di seguito:

    • Campi presenti nei dati di input. È possibile scegliere Aggiungi campo oppure selezionare il simbolo a tre punti accanto a un campo per rimuovere, rinominare o modificare il nome facoltativo.
    • Anteprima in tempo reale di dati in ingresso nella tabella Anteprima dati nella vista del diagramma. Viene aggiornato periodicamente. È possibile selezionare Sospendi anteprima streaming per visualizzare una visualizzazione statica dell'input di esempio.
      Screenshot che mostra i dati di esempio in Anteprima dati.
  6. Selezionare il riquadro Azure Data Lake Storage Gen2 per modificare la configurazione.

  7. Nella pagina di configurazione di Azure Data Lake Storage Gen2 seguire questa procedura:

    1. Selezionare la sottoscrizione, il nome dell'account di archiviazione e il contenitore dal menu a discesa.

    2. Dopo aver selezionato la sottoscrizione, il metodo di autenticazione e la chiave dell'account di archiviazione vengono compilati automaticamente.

    3. Per Delta table path, specificare la posizione e il nome della tabella Delta Lake archiviata in Azure Data Lake Storage Gen2. È possibile scegliere di usare uno o più segmenti di percorso per definire il percorso della tabella delta e il nome della tabella delta. Per altre informazioni, consultare Scrivere nella tabella Delta Lake.

    4. Selezionare Connetti.

      Prima schermata che mostra la finestra Blob in cui si modifica la configurazione della connessione di un Blob.

  8. Quando viene stabilita la connessione, vengono visualizzati i campi presenti nei dati di output.

  9. Selezionare Salva sulla barra dei comandi per salvare la configurazione.

  10. Selezionare Avvia sulla barra dei comandi per avviare il flusso di streaming per acquisire i dati. Nella finestra Avvia processo di Analisi di flusso :

    1. Scegliere l'ora di inizio dell'output.
    2. Selezionare il numero di unità di streaming (SU) con cui viene eseguito il processo. SU rappresenta le risorse di calcolo allocate per eseguire un processo di Analisi di flusso. Per altre informazioni, vedere Unità di streaming in Analisi di flusso di Azure.
      Screenshot che mostra la finestra per avviare il processo di Stream Analytics in cui si imposta l'ora di inizio dell'output, le unità di flusso e la gestione degli errori.
  11. Dopo aver selezionato Start, il processo viene avviato entro due minuti e le metriche vengono aperte nella sezione della scheda, come illustrato nell'immagine seguente. Screenshot che mostra il grafico delle metriche.

  12. Puoi vedere il nuovo processo nella scheda Processi di Analisi dei flussi. Screenshot che mostra il collegamento

Verificare l'output

Verificare che i file parquet con formato Delta Lake vengano generati nel contenitore Azure Data Lake Storage.

Screenshot che mostra i file Parquet generati nel contenitore Azure Data Lake Storage (ADLS).

Considerazioni sull'uso della funzionalità di replica geografica di Hub eventi

Gli hub eventi di Azure hanno recentemente lanciato la funzionalità di replica geografica in anteprima pubblica. Questa funzionalità è diversa dalla funzionalità ripristino di emergenza geografico di Hub eventi di Azure.

Quando il tipo di failover è Forzato e la coerenza della replica è asincrona, il processo di Analisi di flusso non garantisce la consegna exactly-once in un output di Hub eventi di Azure.

Analisi di flusso di Azure, in quanto producer con un hub eventi come output, potrebbe osservare un ritardo limite nel processo nel corso del failover e durante la limitazione da parte di Hub eventi nel caso in cui il ritardo tra replica primario e replica secondaria raggiunga il ritardo massimo configurato.

Analisi di flusso di Azure, in quanto consumer con hub eventi come input, potrebbe osservare un ritardo limite nel processo nel corso del failover e ignorare dati o trovare dati duplicati al termine del failover.

A causa di queste avvertenze, riavviare il processo di Analisi di flusso con l'ora di inizio appropriata subito dopo il completamento del failover di Hub eventi. Inoltre, poiché la funzionalità di replica geografica di Hub eventi è in anteprima pubblica, non usare questo modello per i processi di Analisi di flusso di produzione a questo punto. Il comportamento corrente di Stream Analytics migliorerà prima che la funzionalità di replica geografica di Event Hubs diventi generalmente disponibile e possa essere usata nei processi di produzione di Stream Analytics.

Passaggi successivi

Ora sai come usare l'editor senza codice di Stream Analytics per creare un processo che acquisisce i dati di Event Hubs in Azure Data Lake Storage Gen2 nel formato Delta Lake. Successivamente, è possibile ottenere altre informazioni su Analisi di flusso di Azure e su come monitorare il processo creato.