Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Importante
Avviso di deprecazione: Lo scenario di Analisi su scala cloud è stato deprecato e non è più gestito o supportato. Per garantire che vengano visualizzate solo le indicazioni migliori, queste indicazioni verranno eliminate nell'aprile 2026.
Per linee guida aggiornate sui dati CAF, vedere Unify your data platform.
Le zone di destinazione dei dati sono connesse alla zona di destinazione di gestione dei dati tramite peering di rete virtuale o endpoint privati. Ogni zona di destinazione dei dati viene considerata una zona di destinazione correlata all'architettura della zona di destinazione di Azure.
Importante
Prima di effettuare il provisioning di una zona di destinazione dei dati, assicurarsi che il modello operativo DevOps e l'integrazione continua e il recapito continuo (CI/CD) siano implementati e che venga distribuita una zona di destinazione per la gestione dei dati.
Ogni zona di destinazione dei dati ha diversi livelli che consentono l'agilità per le integrazioni dei dati del servizio e le applicazioni dati contenute. È possibile distribuire una nuova zona di destinazione dei dati con un set standard di servizi che consentono all'area di destinazione dei dati di inserire e analizzare i dati.
La tabella seguente illustra la struttura di una tipica sottoscrizione di Azure associata a una zona di destinazione dei dati.
| Strato | Obbligatorio | Gruppi di risorse |
|---|---|---|
| livello dei servizi della piattaforma | Sì | |
| |
Sì | |
| Applicazione dei dati | Opzionale |
|
| Reportistica e visualizzazione dei dati | Opzionale |
Nota
Il livello di servizi di base è contrassegnato come obbligatorio, ma non tutti i gruppi di risorse e i servizi inclusi in questo articolo potrebbero essere necessari per la zona di destinazione dei dati.
Architettura della zona di destinazione dei dati
L'architettura della zona di destinazione dei dati seguente illustra i livelli, i relativi gruppi di risorse e i servizi contenuti in ogni gruppo di risorse. L'architettura offre una panoramica di tutti i gruppi e i ruoli associati alla zona di destinazione dei dati e l'estensione dell'accesso ai piani dati e di controllo. L'architettura illustra anche il modo in cui ogni livello è allineato alle responsabilità del modello operativo.
Consiglio
Prima di distribuire una zona di destinazione dei dati, assicurarsi di prendere in considerazione il numero di zone di destinazione dei dati iniziali da distribuire.
Servizi della piattaforma
Il livello dei servizi della piattaforma include i servizi necessari per abilitare la connettività e l'osservabilità alla zona di destinazione dei dati nel contesto dell'analisi su scala cloud. Nella tabella seguente sono elencati i gruppi di risorse consigliati.
| Gruppo di risorse | Obbligatorio | Descrizione |
|---|---|---|
network-rg |
Sì | Reti |
security-rg |
Sì | Sicurezza e monitoraggio |
Reti
Il gruppo di risorse di rete contiene servizi di connettività, tra cui rete virtuale di Azure, gruppi di sicurezza di rete e tabelle di route. Tutti questi servizi vengono distribuiti in un singolo gruppo di risorse.
La rete virtuale della zona di destinazione dei dati viene effettuato automaticamente il peering con la rete virtuale della zona di gestione dei dati e con la rete virtuale della sottoscrizione di connettività.
Sicurezza e monitoraggio
Il gruppo di risorse di sicurezza e monitoraggio include Azure Monitor e Microsoft Defender for Cloud per raccogliere i dati di telemetria del servizio, definire criteri e avvisi di monitoraggio e applicare criteri e analisi ai servizi.
Servizi di base
Il livello di servizi di base include i servizi fondamentali necessari per abilitare la zona di destinazione dei dati all'interno del contesto dell'analisi su scala cloud. La tabella seguente elenca i gruppi di risorse che forniscono la suite standard di servizi disponibili in ogni zona di destinazione dei dati distribuita.
| Gruppo di risorse | Obbligatorio | Descrizione |
|---|---|---|
storage-rg |
Sì | Servizi Data Lake |
runtimes-rg |
Sì | IR condivisi |
mgmt-rg |
Sì | Agenti CI/CD |
external-data-rg |
Sì | Archiviazione dati esterna |
data-ingestion-rg |
Opzionale | Servizi di inserimento dati condivisi |
shared-applications-rg |
Opzionale | Applicazioni condivise (Azure Databricks) |
Immagazzinamento
Il diagramma precedente mostra tre account di Azure Data Lake Storage Gen2 di cui è stato effettuato il provisioning in un singolo gruppo di risorse di Servizi Data Lake. I dati trasformati in fasi diverse vengono salvati in uno dei data lake della zona di destinazione dei dati. I dati sono disponibili per l'utilizzo da parte dei team di analisi, data science e visualizzazione.
I livelli data lake usano terminologia diversa a seconda della tecnologia e del fornitore. Questa tabella fornisce indicazioni su come applicare le condizioni per l'analisi su scala cloud:
| Analisi a scala cloud | Delta Lake | Altri termini | Descrizione |
|---|---|---|---|
| Crudo | Bronzo | Atterraggio e conformità | Tabelle di inserimento |
| Arricchito | Argento | Zona di standardizzazione | Tabelle perfezionate. Entità completa archiviata, recordset pronti per l'utilizzo dai sistemi di record. |
| Selezionato | Oro | Area del prodotto | Funzionalità o tabelle aggregate. Zona primaria per applicazioni, team e utenti per l'utilizzo di prodotti dati. |
| Sviluppo | -- | Zona di sviluppo | Luogo per ingegneri dei dati e scienziati, costituito da una sandbox analitica e da una zona di sviluppo del prodotto. |
Nota
Nel diagramma precedente ogni zona di destinazione dei dati ha tre account di archiviazione data lake. A seconda dei requisiti, è possibile scegliere di consolidare i livelli non elaborati, arricchiti e curati in un account di archiviazione e mantenere un altro account di archiviazione denominato area di lavoro per consentire agli utenti di dati di inserire altri prodotti dati utili.
Per altre informazioni, vedere:
- Panoramica di Azure Data Lake Storage per l'analisi su scala cloud
- standardizzazione dei dati
- Zone e contenitori del data lake
- Considerazioni chiave per Data Lake Storage
- Controllo di accesso e configurazioni data lake in Data Lake Storage
IR condivisi
Le pipeline di Azure Data Factory usano IR per accedere in modo sicuro alle origini dati in reti con peering o isolate. Gli IR condivisi devono essere distribuiti in una macchina virtuale (VM) o nei set di scalabilità di macchine virtuali di Azure nel gruppo di risorse degli IR condivisi.
Per abilitare il gruppo di risorse condivise:
Creare almeno un'istanza di Azure Data Factory nel gruppo di risorse di integrazione condivisa della zona di destinazione dei dati. Utilizzarlo solo per collegare il self-hosted IR condiviso, non per le pipeline di dati.
Crea e configura un runtime di integrazione self-hosted sulla VM.
Associare l'Integration Runtime (IR) self-hosted alle Azure Data Factory nelle zone di atterraggio dei dati.
Utilizzare gli script di PowerShell per fare aggiornamenti periodici al runtime di integrazione self-hosted.
Nota
La distribuzione descrive una singola distribuzione di VM con un IR self-hosted. È possibile associare un runtime di integrazione autonomo a più macchine virtuali in locale o su Azure. Questi computer sono chiamati nodi. È possibile avere fino a quattro nodi associati a un IR self-hosted. I vantaggi della presenza di più nodi includono:
Una maggiore disponibilità dell'IR self-hosted, in modo che non sia più il singolo punto di guasto nell'applicazione dati o nell'orchestrazione dell'integrazione dei dati nel cloud.
Miglioramento delle prestazioni e della velocità effettiva durante lo spostamento dei dati tra i servizi dati locali e cloud. Per altre informazioni, vedere la Guida alle prestazioni e alla scalabilità dell'attività Copy.
È possibile associare più nodi installando il software di integrazione self-hosted, l'Integration Runtime, dall'Area download Microsoft. Registrarlo quindi usando una delle chiavi di autenticazione ottenute dal cmdlet New-AzDataFactoryV2IntegrationRuntimeKey , come descritto nell'esercitazione.
Per altre informazioni, vedere Disponibilità elevata e scalabilità di Azure Data Factory.
Assicurarsi di distribuire indirizzi IR condivisi il più vicino possibile all'origine dati. È possibile distribuire gli IR in una zona di destinazione dei dati, in cloud non Microsoft o in un cloud privato se la macchina virtuale dispone di connettività alle origini dati necessarie.
Gestione
Gli agenti CI/CD vengono eseguiti nelle macchine virtuali e consentono di distribuire elementi dal repository del codice sorgente, incluse le applicazioni dati e le modifiche apportate alla zona di destinazione dei dati.
Per ulteriori informazioni, vedere Agenti di Azure Pipelines.
Archiviazione esterna
Gli editori di dati dei partner devono trasferire i dati nella vostra piattaforma affinché i team delle applicazioni dati possano integrarlo nei loro data lake. È anche possibile avere origini dati interne o esterne che non possono supportare i requisiti di connettività o autenticazione applicati tra il resto delle zone di destinazione dei dati. L'approccio consigliato consiste nell'usare un account di archiviazione separato per ricevere i dati. Usare quindi un ambiente di integrazione condiviso o un processo di inserimento dati simile per incorporarlo nella pipeline di elaborazione.
I team delle applicazioni di dati richiedono i blob di archiviazione. Queste richieste vengono approvate dal team operativo della zona di destinazione dei dati. I dati devono essere eliminati dal BLOB di archiviazione di origine dopo l'inserimento nell'archivio dati non elaborato.
Importante
Poiché il provisioning dei blob di Archiviazione di Azure viene eseguito in base alle esigenze, è necessario inizialmente distribuire un gruppo di risorse di servizi di archiviazione vuoto in ogni zona dati di destinazione.
Inserimento dati
Questo gruppo di risorse è facoltativo e non impedisce la distribuzione della zona di atterraggio. Si applica se si dispone o si sta sviluppando un motore di inserimento indipendente dai dati che inserisce automaticamente i dati in base ai metadati registrati. Questa funzionalità include stringhe di connessione, percorsi per il trasferimento dei dati e pianificazioni di inserimento.
Il gruppo di risorse di inserimento ed elaborazione dispone di servizi chiave per questo tipo di framework.
Distribuire un'istanza di Azure SQL Database per contenere i metadati usati da Azure Data Factory. Creare un'Azure Key Vault per archiviare i segreti legati ai servizi di acquisizione automatizzata. Questi segreti possono includere:
- Credenziali del metastore di Azure Data Factory.
- Credenziali del principale di servizio per il processo di inserimento automatico.
Per altre informazioni, vedere Motore di inserimento indipendente dai dati.
La tabella seguente descrive i servizi in questo gruppo di risorse.
| Servizio | Obbligatorio | Istruzioni |
|---|---|---|
| Azure Data Factory | Sì | Azure Data Factory è il motore di orchestrazione per l'inserimento agnostico rispetto ai dati. |
| Database SQL di Microsoft Azure | Sì | Il database SQL è il metastore per Azure Data Factory. |
| Hub eventi di Azure o hub IoT di Azure | Opzionale | Hub eventi o hub IoT possono fornire flussi in tempo reale agli hub eventi, oltre all'elaborazione batch e streaming tramite un'area di lavoro di progettazione di Azure Databricks. |
| Azure Databricks | Opzionale | È possibile distribuire Azure Databricks da usare con il motore di inserimento indipendente dai dati. |
Applicazioni condivise
Usare questo gruppo di risorse facoltativo quando è necessario disporre di un set di servizi condivisi resi disponibili a tutti i team che creano applicazioni dati in questa zona di destinazione dei dati. I casi d'uso sono:
- Un'area di lavoro di Azure Databricks usata come metastore condiviso per tutte le altre aree di lavoro di Databricks create nella stessa area o zona di destinazione dei dati.
Nota
Azure Databricks usa Unity Catalog per gestire l'accesso e la visibilità dei metastore nelle aree di lavoro di Databricks. Il catalogo unity è abilitato a livello di tenant, ma i metastore sono allineati alle aree di Azure. Questa configurazione significa che tutte le aree di lavoro di Databricks abilitate per Unity Catalog in una determinata area di Azure devono essere registrate con lo stesso metastore. Per altre informazioni, consulta Procedure consigliate per Unity Catalog.
Per integrare Azure Databricks, seguire le procedure consigliate per l'analisi su scala cloud. Per altre informazioni, vedere Proteggere l'accesso ad Azure Data Lake Gen2 da Azure Databricks e procedure consigliate per Azure Databricks.
Applicazione di dati
Ogni zona di destinazione dei dati può avere più applicazioni di dati. È possibile creare queste applicazioni inserendo dati da varie origini. È anche possibile creare applicazioni dati da altre applicazioni dati all'interno della stessa zona di destinazione dei dati o da altre zone di destinazione dei dati. La creazione di applicazioni dati è soggetta all'approvazione dell'amministratore dei dati.
Gruppo di risorse per applicazioni dati
Il gruppo di risorse dell'applicazione di dati include tutti i servizi necessari per creare l'applicazione di dati. Ad esempio, per MySQL è necessario un database di Azure, usato da uno strumento di visualizzazione. I dati devono essere inseriti e trasformati prima di passare al database MySQL. In questo caso, è possibile distribuire Database di Azure per MySQL e Azure Data Factory nel gruppo di risorse dell'applicazione dati.
Consiglio
Se si decide di non implementare un motore agnostico ai dati per l'ingestione singola da fonti operative, o se nel vostro motore agnostico ai dati non sono supportate connessioni complesse, sviluppate un'applicazione dati allineata alla fonte.
Creazione di report e visualizzazione
È possibile usare gli strumenti di visualizzazione e creazione di report all'interno delle aree di lavoro di Infrastruttura, simili alle aree di lavoro di Power BI. Questa funzionalità consente di evitare di distribuire risorse univoce all'interno della zona di destinazione dei dati. È possibile includere un gruppo di risorse per distribuire la capacità di Fabric, macchine virtuali per i gateway di dati o altri servizi dati necessari per fornire l'applicazione dati all'utente.