Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questo articolo illustra come usare l'editor senza codice per acquisire automaticamente i dati di streaming in Hub eventi in un account Azure Data Lake Storage Gen2 in formato Delta Lake.
Prerequisiti
- È necessario rendere le risorse Hub eventi di Azure e Azure Data Lake Storage Gen2 accessibili pubblicamente. Non posizionarli dietro un firewall o proteggerli in un Rete virtuale di Azure.
- È necessario serializzare i dati negli hub eventi in formato JSON, CSV o Avro.
Configurare un processo per acquisire i dati
Usare la procedura seguente per configurare un processo di Analisi di flusso per acquisire i dati in Azure Data Lake Storage Gen2.
Nel portale di Azure passare all'hub eventi.
Selezionare Funzioni>Elabora dati e selezionare Avvia nella scheda Acquisire dati in formato Delta Lake su ADLS Gen2.
In alternativa, selezionare Funzionalità>Acquisizione e selezionare l'opzione Delta Lake sotto Formato di serializzazione degli eventi di output. Selezionare quindi Avvia configurazione di Acquisizione dati.
Immettere un nome per identificare il processo di Analisi di flusso. Selezionare Crea.
Specificare il tipo di serializzazione dei dati in Hub eventi e il metodo di autenticazione usato dal processo per connettersi a Hub eventi. Selezionare Connetti.
Quando la connessione viene stabilita correttamente, viene visualizzato quanto riportato di seguito:
- Campi presenti nei dati di input. È possibile scegliere Aggiungi campo oppure selezionare il simbolo a tre punti accanto a un campo per rimuovere, rinominare o modificare il nome facoltativo.
- Anteprima in tempo reale di dati in ingresso nella tabella Anteprima dati nella vista del diagramma. Viene aggiornato periodicamente. È possibile selezionare Sospendi anteprima streaming per visualizzare una visualizzazione statica dell'input di esempio.
Selezionare il riquadro Azure Data Lake Storage Gen2 per modificare la configurazione.
Nella pagina di configurazione di Azure Data Lake Storage Gen2 seguire questa procedura:
Selezionare la sottoscrizione, il nome dell'account di archiviazione e il contenitore dal menu a discesa.
Dopo aver selezionato la sottoscrizione, il metodo di autenticazione e la chiave dell'account di archiviazione vengono compilati automaticamente.
Per Delta table path, specificare la posizione e il nome della tabella Delta Lake archiviata in Azure Data Lake Storage Gen2. È possibile scegliere di usare uno o più segmenti di percorso per definire il percorso della tabella delta e il nome della tabella delta. Per altre informazioni, consultare Scrivere nella tabella Delta Lake.
Selezionare Connetti.
Quando viene stabilita la connessione, vengono visualizzati i campi presenti nei dati di output.
Selezionare Salva sulla barra dei comandi per salvare la configurazione.
Selezionare Avvia sulla barra dei comandi per avviare il flusso di streaming per acquisire i dati. Nella finestra Avvia processo di Analisi di flusso :
- Scegliere l'ora di inizio dell'output.
- Selezionare il numero di unità di streaming (SU) con cui viene eseguito il processo. SU rappresenta le risorse di calcolo allocate per eseguire un processo di Analisi di flusso. Per altre informazioni, vedere Unità di streaming in Analisi di flusso di Azure.
Dopo aver selezionato Start, il processo viene avviato entro due minuti e le metriche vengono aperte nella sezione della scheda, come illustrato nell'immagine seguente.
Puoi vedere il nuovo processo nella scheda Processi di Analisi dei flussi.
Verificare l'output
Verificare che i file parquet con formato Delta Lake vengano generati nel contenitore Azure Data Lake Storage.
Considerazioni sull'uso della funzionalità di replica geografica di Hub eventi
Gli hub eventi di Azure hanno recentemente lanciato la funzionalità di replica geografica in anteprima pubblica. Questa funzionalità è diversa dalla funzionalità ripristino di emergenza geografico di Hub eventi di Azure.
Quando il tipo di failover è Forzato e la coerenza della replica è asincrona, il processo di Analisi di flusso non garantisce la consegna exactly-once in un output di Hub eventi di Azure.
Analisi di flusso di Azure, in quanto producer con un hub eventi come output, potrebbe osservare un ritardo limite nel processo nel corso del failover e durante la limitazione da parte di Hub eventi nel caso in cui il ritardo tra replica primario e replica secondaria raggiunga il ritardo massimo configurato.
Analisi di flusso di Azure, in quanto consumer con hub eventi come input, potrebbe osservare un ritardo limite nel processo nel corso del failover e ignorare dati o trovare dati duplicati al termine del failover.
A causa di queste avvertenze, riavviare il processo di Analisi di flusso con l'ora di inizio appropriata subito dopo il completamento del failover di Hub eventi. Inoltre, poiché la funzionalità di replica geografica di Hub eventi è in anteprima pubblica, non usare questo modello per i processi di Analisi di flusso di produzione a questo punto. Il comportamento corrente di Stream Analytics migliorerà prima che la funzionalità di replica geografica di Event Hubs diventi generalmente disponibile e possa essere usata nei processi di produzione di Stream Analytics.
Passaggi successivi
Ora sai come usare l'editor senza codice di Stream Analytics per creare un processo che acquisisce i dati di Event Hubs in Azure Data Lake Storage Gen2 nel formato Delta Lake. Successivamente, è possibile ottenere altre informazioni su Analisi di flusso di Azure e su come monitorare il processo creato.