Condividi tramite


Acquisire dati da Hub eventi in formato Parquet

Questo articolo illustra come usare l'editor senza codice per acquisire automaticamente i dati di streaming su Event Hubs in un account di Azure Data Lake Storage Gen2 nel formato Parquet.

Prerequisiti

  • Uno spazio dei nomi Azure Event Hubs con un Event Hub e un account Azure Data Lake Storage Gen2 con un contenitore per archiviare i dati acquisiti. Queste risorse devono essere accessibili pubblicamente e non possono essere protette da un firewall o protette in una rete virtuale di Azure.

    Se non si ha un hub eventi, crearne uno seguendo le istruzioni riportate in Avvio rapido: Creare un hub eventi.

    Se non si ha un account Data Lake Storage Gen2, crearne uno seguendo le istruzioni riportate in Creare un account di archiviazione.

  • I dati nell'istanza di Hub eventi (hub eventi) devono essere serializzati in formato JSON, CSV o Avro. Nella pagina Istanza di Event Hubs per il tuo hub eventi, seguire questi passaggi:

    1. Nel menu a sinistra, selezionare Esplora dati.

    2. Nel riquadro centrale selezionare Invia eventi.

    3. Nel riquadro Invia eventi selezionare Dati titoli per Seleziona set di dati.

    4. Selezionare Invia.

      La schermata mostra la pagina Genera dati per generare dati di titoli di esempio.

Configurare un processo per acquisire i dati

Usare la procedura seguente per configurare un processo di Analisi di flusso per acquisire i dati in Azure Data Lake Storage Gen2.

  1. Nel portale di Azure passare all'hub eventi.

  2. Nel menu a sinistra, in Funzionalità, selezionare Elabora dati. Selezionare quindi Avvia nella scheda Acquisisci dati in ADLS Gen2 in formato Parquet.

    Screenshot che mostra le schede di avvio dei dati di Hub eventi di Elaborazione.

  3. Immettere un nome per il processo di Analisi di flusso e quindi selezionare Crea.

    Screenshot che mostra la finestra Nuovo processo di Analisi di flusso in cui si immette il nome del processo.

  4. Specificare il tipo di serializzazione dei dati in Hub eventi e il metodo di autenticazione usato dal processo per connettersi a Hub eventi. Per questa esercitazione, mantenere le impostazioni predefinite. Selezionare Connetti.

    Screenshot che mostra la configurazione della connessione di Hub eventi.

  5. Quando la connessione viene stabilita correttamente, viene visualizzato quanto riportato di seguito:

    • Campi presenti nei dati di input. È possibile scegliere Aggiungi campo oppure selezionare il simbolo a tre punti accanto a un campo per rimuovere, rinominare o modificare il nome facoltativo.

    • Esempio live di dati in ingresso nella tabella Anteprima dati nella vista diagramma. Viene aggiornato periodicamente. È possibile selezionare Sospendi anteprima streaming per visualizzare una visualizzazione statica dell'input di esempio.

      Screenshot che mostra i dati di esempio in Anteprima dati.

  6. Selezionare il riquadro Azure Data Lake Storage Gen2 per modificare la configurazione.

  7. Nella pagina di configurazione di Azure Data Lake Storage Gen2 seguire questa procedura:

    1. Selezionare la sottoscrizione, il nome dell'account di archiviazione e il contenitore dal menu a discesa.

    2. Dopo aver selezionato la sottoscrizione, il metodo di autenticazione e la chiave dell'account di archiviazione vengono compilati automaticamente.

    3. Selezionare Parquet per Formato di serializzazione .

      Screenshot che mostra la pagina di configurazione di Data Lake Storage Gen2.

    4. Per i BLOB di streaming, il modello di percorso della directory è un valore dinamico. La data deve far parte del percorso del file per il BLOB, a cui viene fatto riferimento come {date}. Per informazioni sui modelli di percorso personalizzati, vedere Partizionamento personalizzato dell'output BLOB in Azure Stream Analytics.

      Prima schermata che mostra la finestra Blob dove si modifica la configurazione della connessione di un blob.

    5. Seleziona Connetti

  8. Quando viene stabilita la connessione, vengono visualizzati i campi presenti nei dati di output.

  9. Selezionare Salva sulla barra dei comandi per salvare la configurazione.

    Screenshot che mostra il pulsante Salva sulla barra dei comandi.

  10. Selezionare Avvia sulla barra dei comandi per avviare il flusso di streaming per acquisire i dati. Nella finestra Avvia processo di Analisi di flusso :

    1. Scegliere l'ora di inizio dell'output.

    2. Selezionare il piano tariffario.

    3. Selezionare il numero di unità di streaming (SU) con cui viene eseguito il processo. SU rappresenta le risorse di calcolo allocate per eseguire un processo di Analisi di flusso. Per ulteriori informazioni, vedere Unità di streaming in Analisi del flusso di Azure.

      Screenshot che mostra la finestra per l'avvio del lavoro di Stream Analytics in cui si imposta l'ora di inizio dell'output, le unità di streaming e la gestione degli errori.

  11. Selezionare X nell'angolo in alto a destra per chiudere la finestra del processo di Stream Analytics.

  12. Il processo di Analisi di flusso viene visualizzato nella scheda Processo di Analisi di flusso della pagina Elabora dati per l'hub eventi.

    Screenshot che mostra il processo di Analisi di flusso nella pagina Elabora dati.

Verificare l'output

  1. Nella pagina dell'istanza di Event Hubs per il tuo hub eventi, seguire questa procedura:

    1. Nel menu a sinistra, selezionare Esplora dati.
    2. Nel riquadro centrale selezionare Invia eventi.
    3. Nel riquadro Invia eventi selezionare Dati titoli per Seleziona set di dati.
    4. Selezionare Invia.
  2. Verificare che i file Parquet vengano generati nel contenitore Azure Data Lake Storage.

    Screenshot che visualizza i file Parquet generati nel contenitore Azure Data Lake Storage.

  3. Nella pagina dell'istanza di Hub eventi selezionare Elabora dati nel menu a sinistra. Passare alla scheda Processi di Analisi di flusso. Selezionare Apri metriche per monitorarla. Aggiungere metriche di input al grafico usando l'opzione Aggiungi metrica sulla barra degli strumenti. Se non vengono visualizzate le metriche nel grafico, attendere alcuni minuti e aggiornare la pagina.

    Screenshot che mostra il collegamento Apri metriche selezionato.

    Ecco uno screenshot di esempio delle metriche che mostra gli eventi di input e output.

    Screenshot che mostra le metriche del processo di Analisi di flusso.

Considerazioni sull'uso della funzionalità di replica geografica di Hub eventi

Hub eventi di Azure ha recentemente lanciato la funzionalità di Replica geografica in anteprima pubblica. Questa funzionalità è diversa dalla funzionalità ripristino di emergenza geografico di Hub eventi di Azure.

Quando il tipo di failover è Forzato e la coerenza della replica è asincrona, il processo di Analisi di flusso non garantisce esattamente una volta l'output in un output Hub eventi di Azure.

Analisi di flusso di Azure, come producer con un output di un hub eventi, potrebbe osservare un ritardo limite nel processo durante la durata del failover e durante la limitazione da parte di Hub eventi nel caso in cui il ritardo di replica tra primario e secondario raggiunga il ritardo massimo configurato.

Azure Stream Analytics, come consumer con Event Hubs come input, potrebbe osservare un ritardo del watermark sul processo durante la durata del failover e, al termine del failover, potrebbe saltare alcuni dati o trovare dati duplicati.

A causa di queste avvertenze, è consigliabile riavviare il lavoro di Stream Analytics con l'orario di inizio appropriato immediatamente dopo il completamento del failover di Event Hubs. Inoltre, poiché la funzionalità di replica geografica di Hub eventi è in anteprima pubblica, non è consigliabile usare questo modello per i processi di Analisi di flusso di produzione a questo punto. Il comportamento attuale di Analisi di flusso verrà migliorato prima che la funzionalità di replica geografica di Hub eventi diventi generalmente disponibile e possa essere utilizzata nei processi di produzione di Analisi di flusso.

Ora sai come usare l'editor senza codice di Stream Analytics per creare un processo che acquisisce dati da Event Hubs in Azure Data Lake Storage Gen2 in formato Parquet. Successivamente, è possibile ottenere altre informazioni su Analisi di flusso di Azure e su come monitorare il processo creato.