Condividi tramite


Acquisire i dati delle modifiche con l'evoluzione dello schema da Azure SQL Database a un sink Delta usando una risorsa di acquisizione dei dati delle modifiche.

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!

In questo articolo si usa l'interfaccia utente di Azure Data Factory per creare una risorsa change data capture (CDC). La risorsa preleva i dati modificati da un'origine database SQL di Azure e lo aggiunge a Delta Lake archiviato in Azure Data Lake Storage Gen2 in tempo reale. Questa attività illustra il supporto dell'evoluzione dello schema usando una risorsa CDC tra origine e sink.

In questo articolo vengono illustrate le operazioni seguenti:

  • Creare una risorsa CDC.
  • Apportare modifiche dello schema dinamico a una tabella di origine.
  • Convalidare le modifiche dello schema nel sink Delta di destinazione.

È possibile modificare ed espandere il modello di configurazione in questo articolo.

Prerequisiti

Prima di iniziare le procedure descritte in questo articolo, assicurarsi di disporre di queste risorse:

  • Sottoscrizione di Azure. Se non si ha una sottoscrizione di Azure, creare un account Azure gratuito.
  • Database SQL. Usare database SQL di Azure come archivio dati di origine. Se non si ha un database SQL, crearne uno nel portale di Azure.
  • Account di archiviazione. È possibile usare Delta Lake archiviato in Azure Data Lake Storage Gen2 come archivio dati di destinazione. Se non si ha un account di archiviazione, vedere Creare un account di archiviazione per la procedura per crearne uno.

Creare un artefatto CDC

  1. Andare al riquadro Autore nel data factory. Sotto Pipeline viene visualizzato un nuovo artefatto di primo livello denominato Change Data Capture (anteprima).

    Screenshot di un nuovo artefatto di primo livello per acquisizione dati delle modifiche nel riquadro Risorse della fabbrica.

  2. Passare il puntatore del mouse su Change Data Capture (anteprima) fino a visualizzare tre puntini. Seleziona quindi Azioni di Change Data Capture (anteprima).

    Screenshot del pulsante per le azioni acquisizione dati delle modifiche visualizzate sul nuovo artefatto di primo livello.

  3. Selezionare New CDC (preview). Questo passaggio apre un popup per iniziare il processo guidato.

    Screenshot di un elenco di azioni di acquisizione delle modifiche dei dati.

  4. Viene richiesto di assegnare un nome alla risorsa CDC. Per impostazione predefinita, il nome è "adfcdc" con un numero che incrementa di 1. È possibile sostituire questo nome predefinito con un nome scelto.

    Screenshot della casella di testo per aggiornare il nome di una risorsa.

  5. Usare l'elenco a discesa per scegliere l'origine dati. Per questo articolo selezionare database SQL di Azure.

    Screenshot del pannello a comparsa del processo guidato con le opzioni di origine in un elenco a discesa.

  6. Viene richiesto di selezionare un servizio collegato. Creare un nuovo servizio collegato o selezionare uno esistente.

    Screenshot della casella per scegliere o creare un servizio collegato.

  7. Dopo aver selezionato un servizio collegato, viene richiesto di selezionare le tabelle di origine. Usare le caselle di controllo per selezionare le tabelle di origine e quindi selezionare la colonna Incrementale utilizzando il menu a tendina.

    Screenshot che mostra la selezione di una tabella di origine e di una colonna incrementale.

    Nel riquadro sono elencate solo le tabelle con tipi di dati delle colonne incrementali supportati.

    Nota

    Per abilitare CDC con l'evoluzione dello schema in un'origine di database SQL di Azure, scegliere le tabelle basate su colonne di controllo piuttosto che su quelle abilitate nativamente per SQL CDC.

  8. Dopo aver selezionato le tabelle di origine, selezionare Continua per impostare la destinazione dati.

    Screenshot del pulsante Continua nel processo guidato per la selezione di una destinazione dati.

  9. Selezionare un valore tipo di destinazione utilizzando l'elenco a discesa. Per questo articolo selezionare Delta.

    Screenshot di un menu a discesa contenente tutti i tipi di target dati.

  10. Viene richiesto di selezionare un servizio collegato. Creare un nuovo servizio collegato o selezionare uno esistente.

    Screenshot della casella per scegliere o creare un servizio collegato per la destinazione dei dati.

  11. Selezionare la cartella dati di destinazione. È possibile usare una delle due operazioni seguenti:

    • Il pulsante Sfoglia in Percorso di base di destinazione consente di popolare automaticamente il percorso di esplorazione per tutte le nuove tabelle selezionate per un'origine.
    • Il pulsante Sfoglia consente di selezionare singolarmente il percorso della cartella.

    Screenshot di un'icona di cartella per esplorare un percorso di cartella.

  12. Dopo aver selezionato un percorso di cartella, selezionare il pulsante Continua .

    Screenshot del pulsante 'Continua' nel processo guidato per avanzare al passaggio successivo.

  13. Viene visualizzata una nuova scheda per l'acquisizione dei dati delle modifiche. Questa scheda è CDC Studio, in cui è possibile configurare la nuova risorsa.

    Screenshot di Change Data Capture Studio.

    Viene creato automaticamente un nuovo mapping. È possibile aggiornare le selezioni Tabella di origine e Tabella di destinazione per il mapping usando gli elenchi a discesa.

    Screenshot del mapping da origine a destinazione nello studio di acquisizione dati di modifica.

  14. Dopo aver selezionato le tabelle, le relative colonne vengono mappate per impostazione predefinita con l'interruttore Mappa automatica attivato. Il mapping automatico esegue automaticamente il mapping delle colonne in base al nome nel sink, rileva le modifiche di nuova colonna quando lo schema di origine si evolve e passa queste informazioni ai tipi di sink supportati.

    Screenshot del pulsante per il mapping automatico attivato.

    Nota

    L'evoluzione dello schema funziona solo quando l'interruttore Mappa automatica è attivato. Per informazioni su come modificare i mapping delle colonne o includere trasformazioni, vedere Acquisire dati modificati con una risorsa di acquisizione dei dati modificati.

  15. Selezionare il collegamento Chiavi e quindi selezionare la colonna Chiavi da usare per tenere traccia delle operazioni di eliminazione.

    Screenshot del collegamento per abilitare la selezione della colonna Chiavi.

    Schermata della selezione di una colonna chiavi per l'origine selezionata.

  16. Al termine dei tuoi mapping, imposta la latenza CDC usando il pulsante Imposta Latenza.

    Screenshot del pulsante Imposta latenza nella parte superiore dell'area di disegno.

  17. Selezionare la latenza di CDC e quindi selezionare Applica per apportare le modifiche.

    Per impostazione predefinita, la latenza è impostata su 15 minuti. L'esempio in questo articolo usa l'opzione In tempo reale per la riduzione della latenza. La latenza in tempo reale preleva continuamente le modifiche nei dati di origine in intervalli inferiori a 1 minuto.

    Per altre latenze (ad esempio, se si selezionano 15 minuti), Change Data Capture elabora i dati di origine e raccoglie i dati modificati dall'ora dell'ultima elaborazione.

    Screenshot delle opzioni per l'impostazione della latenza.

  18. Dopo aver completato la configurazione di CDC, selezionare Pubblica tutto per pubblicare le modifiche.

    Screenshot del pulsante Pubblica nella parte superiore del canvas.

    Nota

    Se non si pubblicano le modifiche, non sarà possibile avviare la risorsa CDC. Il pulsante Start nel passaggio successivo non sarà disponibile.

  19. Selezionare Avvia per avviare l'esecuzione dell'acquisizione dei dati delle modifiche.

    Screenshot del pulsante Start nella parte superiore dell'area di disegno.

Ora che Change Data Capture è in esecuzione, è possibile:

  • Usare la pagina di monitoraggio per visualizzare il numero di modifiche (inserimento, aggiornamento o eliminazione) lette e scritte insieme ad altre informazioni di diagnostica.

    Screenshot della pagina di monitoraggio di un'acquisizione dei dati delle modifiche selezionata.

    Screenshot della pagina di monitoraggio di un'acquisizione dei dati delle modifiche selezionata con una visualizzazione dettagliata.

  • Verificare che i dati delle modifiche siano arrivati in Delta Lake archiviati in Azure Data Lake Storage Gen2, in formato Delta.

    Screenshot di una cartella Delta di destinazione.

  • Convalidare lo schema dei dati delle modifiche arrivati.

    Screenshot di un file Delta.

Apportare modifiche a livello di schema dinamico alle tabelle di origine

  1. Aggiungere una nuova colonna PersonalEmail alla tabella di origine usando un'istruzione ALTER TABLE T-SQL, come illustrato nell'esempio seguente.

    Screenshot del comando ALTER in Azure Data Studio.

  2. Verificare che la nuova colonna PersonalEmail venga visualizzata nella tabella esistente.

    Screenshot di una nuova struttura di tabella con una colonna aggiunta per l'email personale.

Convalidare le modifiche dello schema nel sink Delta

Verificare che la nuova colonna PersonalEmail venga visualizzata nel sink Delta. Ora sai che i dati modificati con i cambiamenti dello schema sono arrivati a destinazione.

Screenshot di un file Delta con una modifica dello schema.