Condividi tramite


Acquisire i dati modificati da Azure Data Lake Storage Gen2 a Azure SQL Database utilizzando una risorsa di acquisizione delle modifiche dei dati

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!

In questo articolo si usa l'interfaccia utente di Azure Data Factory per creare una risorsa change data capture (CDC). La risorsa preleva i dati modificati da un'origine Azure Data Lake Storage Gen2 e lo aggiunge a database SQL di Azure in tempo reale.

In questo articolo vengono illustrate le operazioni seguenti:

  • Creare una risorsa CDC.
  • Monitorare l'attività CDC.

È possibile modificare ed espandere il modello di configurazione in questo articolo.

Prerequisiti

Prima di iniziare le procedure descritte in questo articolo, assicurarsi di disporre di queste risorse:

  • Sottoscrizione di Azure. Se non si ha una sottoscrizione di Azure, creare un account Azure gratuito.
  • Database SQL. Usare database SQL di Azure come archivio dati di origine. Se non si ha un database SQL, crearne uno nel portale di Azure.
  • Account di archiviazione. È possibile usare Delta Lake archiviato in Azure Data Lake Storage Gen2 come archivio dati di destinazione. Se non si ha un account di archiviazione, vedere Creare un account di archiviazione per la procedura per crearne uno.

Creare un artefatto CDC

  1. Andare al riquadro Autore nel data factory. Sotto Pipeline viene visualizzato un nuovo artefatto di primo livello denominato Change Data Capture (anteprima).

    Screenshot di un nuovo artefatto di primo livello per acquisizione dati delle modifiche nel riquadro Risorse della fabbrica.

  2. Passare il puntatore del mouse su Change Data Capture (anteprima) fino a visualizzare tre puntini. Seleziona quindi Azioni di Change Data Capture (anteprima).

    Screenshot del pulsante per le azioni acquisizione dati delle modifiche visualizzate sul nuovo artefatto di primo livello.

  3. Selezionare New CDC (preview). Questo passaggio apre un popup per iniziare il processo guidato.

    Screenshot di un elenco di azioni di acquisizione delle modifiche dei dati.

  4. Viene richiesto di assegnare un nome alla risorsa CDC. Per impostazione predefinita, il nome è "adfcdc" con un numero che incrementa di 1. È possibile sostituire questo nome predefinito con un nome scelto.

    Screenshot della casella di testo per aggiornare il nome di una risorsa.

  5. Usare l'elenco a discesa per scegliere l'origine dati. Per questo articolo selezionare DelimitedText.

    Screenshot del pannello a comparsa del processo guidato con le opzioni di origine in un elenco a discesa.

  6. Viene richiesto di selezionare un servizio collegato. Creare un nuovo servizio collegato o selezionare uno esistente.

    Screenshot della casella per scegliere o creare un servizio collegato.

  7. Usare l'area Impostazioni origine per impostare facoltativamente configurazioni di origine avanzate, inclusi delimitatori di colonna e di riga.

    Screenshot delle impostazioni di origine avanzate per impostare i delimitatori.

    Se queste impostazioni di origine non vengono modificate manualmente, vengono impostate sulle impostazioni predefinite.

  8. Usare il pulsante Sfoglia per selezionare la cartella dati di origine.

    Screenshot di un'icona di cartella per esplorare un percorso di cartella.

  9. Dopo aver selezionato un percorso di cartella, selezionare Continua per impostare la destinazione dati.

    Screenshot del pulsante Continua nel processo guidato per selezionare le destinazioni dati.

    È possibile scegliere di aggiungere più cartelle di origine usando il pulsante più (+). Anche le altre origini devono usare lo stesso servizio collegato già selezionato.

  10. Selezionare un valore tipo di destinazione utilizzando l'elenco a discesa. Per questo articolo selezionare database SQL di Azure.

    Screenshot di un menu a discesa contenente tutti i tipi di target dati.

  11. Viene richiesto di selezionare un servizio collegato. Creare un nuovo servizio collegato o selezionare uno esistente.

    Screenshot della casella per scegliere o creare un servizio collegato per la destinazione dei dati.

  12. Per Le tabelle di destinazione è possibile creare una nuova tabella di destinazione o selezionare una tabella esistente:

    • Per creare una tabella di destinazione, selezionare la scheda Nuove entità e quindi selezionare Modifica nuove tabelle.

      Screenshot della scheda per creare nuove tabelle per la destinazione.

    • Per selezionare una tabella esistente, selezionare la scheda Entità esistenti e quindi usare la casella di controllo per scegliere una tabella. Usare il pulsante Anteprima per visualizzare i dati della tabella.

      Screenshot della scheda per scegliere le tabelle per la destinazione.

    Se le tabelle esistenti nella destinazione hanno nomi corrispondenti, vengono selezionate per impostazione predefinita in Entità esistenti. In caso contrario, le nuove tabelle con nomi corrispondenti vengono create in Nuove entità. Inoltre, è possibile modificare nuove tabelle usando il pulsante Modifica nuove tabelle .

  13. È possibile usare le caselle di controllo per scegliere più tabelle di destinazione dal database SQL. Dopo aver scelto le tabelle di destinazione, selezionare Continua.

    Screenshot del pulsante 'Continua' nel processo guidato per avanzare al passaggio successivo.

  14. Viene visualizzata una nuova scheda per l'acquisizione dei dati delle modifiche. Questa scheda è CDC Studio, in cui è possibile configurare la nuova risorsa.

    Screenshot di Change Data Capture Studio.

    Viene creato automaticamente un nuovo mapping. È possibile aggiornare le selezioni Tabella di origine e Tabella di destinazione per il mapping usando gli elenchi a discesa.

    Screenshot del mapping da origine a destinazione nello studio di acquisizione dati di modifica.

  15. Dopo aver selezionato le tabelle, le relative colonne vengono mappate per impostazione predefinita con l'interruttore Mappa automatica attivato. Il mapping automatico esegue automaticamente il mapping delle colonne in base al nome nel sink, rileva le modifiche di nuova colonna quando lo schema di origine si evolve e passa queste informazioni ai tipi di sink supportati.

    Se si vuole usare la mappa automatica e non modificare i mapping delle colonne, passare direttamente al passaggio 18.

    Screenshot del pulsante per il mapping automatico attivato.

    Se desideri abilitare i mapping delle colonne, seleziona i mapping e disattiva il toggle Auto map. Quindi, selezionare il pulsante Mappature delle colonne per visualizzare le mappature.

    Screenshot della selezione della mappatura, dell'interruttore per la mappatura automatica disattivato e del pulsante per le mappature delle colonne.

    È possibile tornare al mapping automatico in qualsiasi momento attivando l'interruttore Mappa automatica .

  16. Visualizza le mappature delle colonne. Usare gli elenchi a discesa per modificare i mapping delle colonne per metodo di mapping, colonna di origine e colonna di destinazione.

    Screenshot della pagina per la modifica delle mappature delle colonne.

    Da questa pagina è possibile:

    • Aggiungere altre mappature delle colonne usando il pulsante Nuova mappatura. Usare gli elenchi a discesa per effettuare selezioni per il metodo Mapping, la colonna Origine e la colonna Target.
    • Selezionare la colonna Chiavi se si vuole tenere traccia dell'operazione di eliminazione per i tipi di sink supportati.
    • Selezionare il pulsante Aggiorna sotto Anteprima dei dati per visualizzare l'aspetto dei dati alla destinazione.

    Screenshot del pulsante che aggiunge mappe delle colonne, il menu a tendina dei metodi di mappatura, la colonna Chiavi e il pulsante Aggiorna.

  17. Al termine del mapping, selezionare il pulsante freccia per tornare all'area di disegno CDC principale.

    Screenshot del pulsante per tornare alla pagina di mapping della tabella.

  18. È possibile aggiungere ulteriori mappature origine-destinazione in un singolo artefatto CDC. Usare il pulsante Modifica per aggiungere altre origini dati e destinazioni. Selezionare Nuova mappatura e utilizzare i menu a tendina per impostare una nuova origine e una nuova destinazione. È possibile attivare o disattivare la mappa automatica per ognuno di questi mapping in modo indipendente.

    Screenshot del pulsante per aggiungere nuove origini e il pulsante per impostare un nuovo mapping da origine a destinazione.

  19. Al termine dei tuoi mapping, imposta la latenza CDC usando il pulsante Imposta Latenza.

    Screenshot del pulsante Imposta latenza nella parte superiore dell'area di disegno.

  20. Selezionare la latenza di CDC e quindi selezionare Applica per apportare le modifiche.

    Per impostazione predefinita, la latenza è impostata su 15 minuti. L'esempio in questo articolo usa l'opzione In tempo reale per la riduzione della latenza. La latenza in tempo reale preleva continuamente le modifiche nei dati di origine in intervalli inferiori a 1 minuto.

    Per altre latenze (ad esempio, se si selezionano 15 minuti), Change Data Capture elabora i dati di origine e raccoglie i dati modificati dall'ora dell'ultima elaborazione.

    Screenshot delle opzioni per l'impostazione della latenza.

    Nota

    Se il supporto viene esteso all'integrazione dei dati di streaming (Hub eventi di Azure e origini dati Kafka), la latenza verrà impostata su Tempo reale per impostazione predefinita.

  21. Dopo aver completato la configurazione di CDC, selezionare Pubblica tutto per pubblicare le modifiche.

    Screenshot del pulsante Pubblica nella parte superiore del canvas.

    Nota

    Se non si pubblicano le modifiche, non sarà possibile avviare la risorsa CDC. Il pulsante Start nel passaggio successivo non sarà disponibile.

  22. Selezionare Avvia per avviare l'esecuzione dell'acquisizione dei dati delle modifiche.

    Screenshot del pulsante Start nella parte superiore dell'area di disegno.

Monitorare l'acquisizione dei dati delle modifiche

  1. Aprire il riquadro Monitoraggio usando uno dei metodi seguenti:

    • Selezionare Monitoraggio nel portale di Azure.

      Screenshot del pulsante Monitoraggio nel portale di Azure.

    • Selezionare l'icona di monitoraggio nella finestra di progettazione CDC.

      Screenshot dell'icona di monitoraggio nella parte superiore del canvas CDC.

  2. Selezionare Change Data Capture (anteprima) per visualizzare le risorse CDC.

    Screenshot del pulsante di Change Data Capture.

    Il riquadro Change Data Capture mostra le informazioni origine, destinazione, stato e ultimo processo per change data capture.

    Screenshot della panoramica della pagina di monitoraggio di Change Data Capture.

  3. Seleziona il nome del tuo CDC per visualizzare altri dettagli. È possibile visualizzare il numero di modifiche (inserimento, aggiornamento o eliminazione) lette e scritte insieme ad altre informazioni di diagnostica.

    Screenshot del monitoraggio dettagliato di un'acquisizione dei dati delle modifiche selezionata.

    Se si configurano più mapping nell'acquisizione dei dati delle modifiche, ogni mapping viene visualizzato come colore diverso. Selezionare la barra per visualizzare dettagli specifici per ogni mapping o usare le informazioni di diagnostica nella parte inferiore del riquadro.

    Screenshot delle informazioni di monitoraggio dettagliate per un'acquisizione dei dati delle modifiche con più mapping da origine a destinazione.

    Screenshot di una dettagliata suddivisione di ogni mappatura in uno strumento di acquisizione dei dati delle modifiche.