Creare un'architettura moderna della piattaforma dati per le PMI usando Microsoft Fabric e Azure Databricks

Azure Data Lake

Azure Databricks

Microsoft Fabric

Dynamics 365

Azure Data Factory

Microsoft Purview

idee di soluzioni

Questo articolo descrive un'idea di soluzione. L'architetto cloud può usare queste linee guida per visualizzare i componenti principali per un'implementazione tipica di questa architettura. Usare questo articolo come punto di partenza per progettare una soluzione ben progettata in linea con i requisiti specifici del carico di lavoro.

Questo articolo descrive in che modo le piccole e medie imprese (PMI) possono creare un'architettura moderna della piattaforma dati combinando gli investimenti esistenti in Azure Databricks con una piattaforma dati SaaS (Software as a Service) completamente gestita, ad esempio Microsoft Fabric. Le piattaforme dati SaaS sono soluzioni di analisi dei dati end-to-end che si integrano con strumenti come Azure Machine Learning, strumenti Foundry, Power Platform, Microsoft Dynamics 365 e altre tecnologie di Microsoft.

Architettura semplificata

Scaricare un file di Visio di questa architettura.

L'interoperabilità tra Azure Databricks e Fabric offre una soluzione affidabile che riduce al minimo la frammentazione dei dati migliorando al contempo le funzionalità analitiche.

Fabric offre un data lake aperto e regolamentato, denominato OneLake, come risorsa di archiviazione SaaS sottostante. OneLake e Azure Databricks entrambi usano il formato Delta Parquet. Per accedere ai dati di Azure Databricks da OneLake, è possibile eseguire il mirroring di Unity Catalog di Azure Databricks in Fabric per integrare i dati senza replica né spostamento dei dati. Con questa integrazione, è possibile aumentare i sistemi di analisi Azure Databricks con intelligenza artificiale generativa oltre a OneLake.

È anche possibile usare la modalità Direct Lake in Power BI sui dati Azure Databricks in OneLake. La modalità Direct Lake semplifica il livello di gestione e migliora le prestazioni del report. OneLake supporta le API per Azure Data Lake Storage e archivia tutti i dati tabulari in formato Delta Parquet.

Di conseguenza, i notebook di Azure Databricks possono usare endpoint OneLake per accedere ai dati archiviati. L'esperienza è identica all'accesso ai dati tramite un warehouse di Fabric. Con questa integrazione, è possibile usare Fabric o Azure Databricks senza modificare i dati.

Architettura

Scaricare un file di Visio di questa architettura.

Flusso di dati

Il flusso di dati seguente corrisponde al diagramma precedente:

Usare pipeline di Azure Data Factory esistenti per inserire dati strutturati e non strutturati dai sistemi di origine e inserirli nel data lake esistente.
È possibile usare le origini dati di Microsoft Dynamics 365 per creare dashboard BI centralizzati su set di dati arricchiti tramite Azure Collegamento a Synapse o Microsoft Fabric Link. Riportare i dati fusi ed elaborati in Microsoft Dynamics 365 e Power BI per un'ulteriore analisi.
I dati di streaming possono essere inseriti tramite Hub eventi di Azure o hub IoT di Azure, a seconda dei protocolli che inviano questi messaggi.
Nel percorso a freddo, è possibile usare Azure Databricks per portare i dati di streaming nel data lake centralizzato per ulteriori analisi, archiviazione e creazione di report. Questi dati possono quindi essere unificati con altre origini dati per l'analisi batch.
Nel percorso a bassa latenza, è possibile analizzare i dati in tempo reale e creare dashboard in tempo reale con Microsoft Fabric Real-Time Intelligence.
È possibile usare i notebook di Azure Databricks esistenti per eseguire operazioni di pulizia, unificazione e analisi dei dati. Prendere in considerazione l'uso dell'architettura medallion, come ad esempio:
- Bronze, che contiene dati non elaborati.
- Silver, che contiene dati puliti e filtrati.
- Gold, che archivia i dati aggregati utili per l'analisi aziendale.
Per i dati di riferimento o per un data warehouse, continuare a utilizzare Azure Databricks SQL oppure creare il mirroring di Azure Databricks Unity Catalog in Fabric. Per abilitare la creazione di report e l'analisi in un Fabric lakehouse, creare un modello semantico in modo esplicito e creare dashboard Power BI usando Direct Lake o DirectQuery per ottenere prestazioni elevate. Per ulteriori informazioni, vedere Modelli semantici in Fabric.

Gli strumenti seguenti vengono usati per la governance, la collaborazione, la sicurezza, le prestazioni e il monitoraggio dei costi.

Individuare e gestire:
- Microsoft Purview offre servizi di individuazione dei dati, classificazione dei dati sensibili e informazioni dettagliate sulla governance nel patrimonio di dati.
- Unity Catalog offre funzionalità centralizzate di controllo di accesso, controllo, derivazione e individuazione dei dati nelle aree di lavoro di Azure Databricks.
Risorse della piattaforma:
- Microsoft Entra ID fornisce l'accesso Single Sign-On (SSO) per gli utenti di Azure Databricks. Azure Databricks supporta il provisioning automatico degli utenti con Microsoft Entra ID per:
  - Creare nuovi utenti.
  - Assegnare a ogni utente un livello di accesso.
  - Rimuovere gli utenti e negare loro l'accesso.
- Gestione costi Microsoft offre servizi di governance finanziaria per i carichi di lavoro di Azure.
- Azure Key Vault gestisce segreti, chiavi e certificati.
- Monitoraggio di Azure raccoglie e analizza i dati di telemetria delle risorse di Azure. Questo servizio ottimizza le prestazioni e l'affidabilità identificando in modo proattivo i problemi.
- Microsoft Defender per il cloud fornisce la gestione del comportamento di sicurezza e la protezione dalle minacce per le risorse e i carichi di lavoro di Azure.
- Azure DevOps offre integrazione continua e distribuzione continua (CI/CD) e altre funzionalità di controllo della versione integrate.
- GitHub fornisce funzionalità di controllo della versione e sviluppo collaborativo per la gestione di pipeline di codice e distribuzione.

Componenti

Data Lake Storage è un servizio di archiviazione dati scalabile progettato per dati strutturati e non strutturati. In questa architettura Data Lake Storage funge da infrastruttura sottostante per Delta Lake. Si tratta del livello di archiviazione principale per i dati non elaborati ed elaborati, che consente un efficiente inserimento, archiviazione e recupero dei dati per carichi di lavoro di analisi e Machine Learning.
Data Factory è un servizio di integrazione dei dati basato sul cloud che orchestra e automatizza lo spostamento e la trasformazione dei dati. In questa architettura Data Factory crea, pianifica e orchestra le pipeline di dati che spostano e trasformano i dati in vari archivi dati e servizi.
Hub eventi è un servizio di inserimento dati in tempo reale che può elaborare milioni di eventi al secondo da qualsiasi origine. In questa architettura Hub eventi acquisisce e trasmette grandi volumi di dati da varie origini per abilitare l'analisi in tempo reale e l'elaborazione guidata dagli eventi.
hub IoT è un servizio gestito che migliora la sicurezza e la comunicazione affidabile tra dispositivi Internet delle cose (IoT) e il cloud. In questa architettura l'hub IoT facilita l'inserimento, l'elaborazione e l'analisi dei dati di telemetria dai dispositivi IoT per fornire informazioni dettagliate in tempo reale e abilitare il monitoraggio remoto.
Microsoft Dataverse è una piattaforma dati scalabile che le organizzazioni possono usare per archiviare e gestire in modo sicuro i dati usati da applicazioni aziendali. In questa architettura funge da origine dati che alimenta la pipeline di analisi tramite Azure Collegamento a Synapse o Microsoft Fabric Link.
- Collegamento ad Azure Synapse è una funzionalità di integrazione dei dati che connette le applicazioni Dynamics con Azure Synapse Analytics o Data Lake Storage. In questa architettura i dati vengono copiati quasi in tempo reale da Dataverse a Data Lake Storage.
- Microsoft Fabric Link è una funzionalità di integrazione dei dati che connette le applicazioni Dynamics a Fabric. In questa architettura replica i dati da Dataverse a Fabric quasi in tempo reale.
Azure Databricks è una piattaforma di analisi basata su Apache Spark per l'elaborazione di Big Data, l'apprendimento automatico e la progettazione dei dati. In questa architettura esegue la pulizia, la trasformazione e l'analisi dei dati usando i livelli di architettura medallion.
- Delta Lake è un livello di archiviazione open source che offre transazioni atomiche, coerenza, isolamento e durabilità (ACID) nei carichi di lavoro Spark e Big Data. In questa architettura Delta Lake migliora l'affidabilità e le prestazioni dei dati all'interno del data lake.
- Azure Databricks SQL è un servizio di analisi basato su SQL che consente agli utenti di eseguire query SQL sui dati archiviati in Azure Databricks. In questa architettura, Azure Databricks SQL offre un'interfaccia SQL potente per eseguire query e analizzare i dati, che consente l'analisi interattiva.
- L'intelligenza artificiale e l'apprendimento automatico includono una gamma di tecnologie e servizi che consentono lo sviluppo, la distribuzione e la gestione dei modelli di Machine Learning. In questa architettura, i servizi di intelligenza artificiale e Machine Learning compilano, eseguono il training e distribuiscono modelli predittivi. Questa funzionalità consente di prendere decisioni basate sui dati.
- Unity Catalog è una soluzione di governance dei dati che fornisce funzionalità centralizzate di controllo di accesso, controllo, derivazione e individuazione dei dati in aree di lavoro Azure Databricks. In questa architettura, Unity Catalog consente di garantire la governance e la sicurezza dei dati fornendo controlli di accesso, controllo e rilevamento della derivazione dei dati con granularità fine.
Medallion Lakehouse architecture è un modello di architettura dei dati che organizza i dati in livelli bronze, silver e gold per l'efficienza nelle elaborazioni e analisi dei dati. In questa architettura struttura i flussi di lavoro di elaborazione dei dati usando Data Lake Storage, Delta Lake e Azure Databricks per supportare l'analisi scalabile.
Fabric è una piattaforma dati completa che integra vari servizi dati e strumenti per offrire un'esperienza di analisi e gestione dei dati senza problemi. In questa architettura Fabric si connette e integra i dati di più origini, che consentono l'analisi completa dei dati e le informazioni dettagliate nell'organizzazione.
- Real-Time intelligence è una funzionalità di elaborazione dati che consente alle organizzazioni di inserire, elaborare e analizzare i dati in tempo reale. Real-Time Intelligence elabora i dati in streaming da varie origini. In questa architettura vengono fornite informazioni dettagliate in tempo reale e vengono abilitate azioni automatizzate basate su modelli di dati.
- I collegamenti rapidi di OneLake creano un collegamento diretto tra OneLake e altre origini dati. In questa architettura semplificano l'accesso ai dati e la gestione e forniscono una visualizzazione unificata dei dati nell'organizzazione.
- Fabric Copilot è un assistente basato su intelligenza artificiale integrato tra carichi di lavoro Fabric. Usa modelli di linguaggio di grandi dimensioni per consentire agli utenti di interagire con i dati usando il linguaggio naturale. Semplifica le attività, ad esempio la generazione di SQL, DAX e trasformazioni, e crea report o dashboard. Copilot supporta il contesto di conversazione, crea visualizzazioni e consente di creare pipeline di analisi. Consente alle organizzazioni di accelerare le informazioni dettagliate sui dati e ottimizzare i flussi di lavoro senza richiedere competenze di codifica approfondite.
- Un agente dati di Fabric è un servizio intelligente basato su LLM in Fabric che le organizzazioni usano per eseguire query e analizzare i dati tra più origini dati, tra cui lakehouse, warehouse, modelli semantici, database KQL e database con mirroring, attraverso un'unica interfaccia. Supporta query complesse in più passaggi, applica logica personalizzata tramite query di esempio e istruzioni sull'agente o sull'origine dati e pubblica in Microsoft 365 Copilot o Teams. Fornisce agli utenti aziendali l'accesso sicuro e regolamentato ai dati aziendali in linguaggio naturale.
Power BI è un servizio di analisi aziendale che offre visualizzazioni interattive e funzionalità di Business Intelligence (BI). In questa architettura Power BI visualizza i dati di Fabric e Azure Databricks usando la modalità Direct Lake per migliorare le prestazioni.
Microsoft Purview è un servizio unificato di governance dei dati che consente alle organizzazioni di gestire e gestire i dati in varie origini. In questa architettura, cataloga i dati, tiene traccia della derivazione e applica la conformità nel patrimonio di dati. È possibile integrare Unity Catalog in Purview per accedere ai metadati del catalogo Unity da Purview.
microsoft Entra ID è una soluzione di gestione delle identità e degli accessi basata sul cloud che consente di garantire accessi sicuri e l'accesso alle risorse come Microsoft 365, Azure e altre applicazioni SaaS. In questa architettura, Microsoft Entra ID offre una gestione sicura delle identità e degli accessi per le risorse di Azure. Questa funzionalità consente accessi sicuri, gestisce le identità utente e garantisce l'accesso autorizzato ai dati e alle risorse.
Cost Management è una suite di strumenti FinOps che le organizzazioni possono usare per analizzare, monitorare e ottimizzare i costi Microsoft Cloud. In questa architettura questi strumenti forniscono la governance finanziaria sulle risorse di Azure.
Key Vault è un servizio cloud che archivia e gestisce segreti, ad esempio chiavi API, password, certificati e chiavi crittografiche. In questa architettura, Azure Databricks può recuperare segreti da Key Vault per autenticare e accedere a Data Lake Storage, garantendo un'integrazione sicura.
Monitoraggio di Azure è un servizio di monitoraggio che offre l'osservabilità dello stack completo per applicazioni, infrastruttura e reti. Monitoraggio di Azure consente agli utenti di raccogliere, analizzare e agire sui dati di telemetria dai propri ambienti Azure e locali. In questa architettura Monitoraggio di Azure garantisce prestazioni e affidabilità identificando in modo proattivo i problemi.
Defender per il cloud è una piattaforma di protezione delle applicazioni nativa del cloud che fornisce la gestione del comportamento di sicurezza e la protezione dalle minacce in ambienti Azure, ibridi e multicloud. In questa architettura Defender per il cloud protegge le piattaforme dati e i carichi di lavoro identificando le vulnerabilità, rilevando le minacce e fornendo raccomandazioni sulla sicurezza tra le risorse Azure.
azure DevOps è un set di strumenti di sviluppo che supportano una cultura collaborativa e processi semplificati. Questi strumenti consentono agli sviluppatori, ai project manager e ai collaboratori di sviluppare software in modo più efficiente. Azure DevOps offre funzionalità integrate come Azure Boards, Azure Repos, Azure Pipelines, Piani di test di Azure e Azure Artifacts. È possibile accedere a queste funzionalità tramite un Web browser o un client dell'ambiente di sviluppo integrato. In questa architettura Azure DevOps supporta la distribuzione automatizzata e il controllo della versione per pipeline di dati e notebook.
GitHub è un servizio di hosting di repository Git basato sul cloud che semplifica il controllo della versione e la collaborazione per gli sviluppatori. I singoli utenti e i team possono archiviare e gestire il codice, tenere traccia delle modifiche e collaborare ai progetti. In questa architettura GitHub si integra con Azure DevOps per applicare l'automazione e la conformità nei flussi di lavoro di sviluppo e nelle pipeline di distribuzione per Data Factory, Azure Databricks e Fabric.

Alternative

Per creare un ambiente indipendente su Fabric, vedere Greenfield lakehouse su Fabric.
Per eseguire la migrazione di un ambiente di analisi SQL locale a Fabric, vedere Modern data warehouses for SMBs.

Alternative di servizio all'interno di questa architettura

Inserimento batch
- Facoltativamente, usare pipeline di dati in Fabric per l'integrazione dei dati anziché le pipeline di Data Factory. La scelta dipende da diversi fattori. Per altre informazioni, vedere Differenze tra Azure Data Factory e Data Factory di Fabric.
Acquisizione di Microsoft Dynamics 365
- Se si utilizza Data Lake Storage come archivio data lake e si desidera acquisire i dati di Dataverse, usare Azure Collegamento a Synapse per Dataverse con Data Lake Storage. Per le app di Dynamics 365 Field Service and Operations, vedere Scegli i dati di Finance and Operations in Azure Collegamento a Synapse for Dataverse.
- Se si utilizza un Lakehouse di Fabric come archiviazione del data lake, vedi Collega l'ambiente Dataverse a Fabric.
Inserimento di dati in streaming
- La decisione tra Azure IoT e Hub eventi dipende dall'origine dei dati di streaming, dal fatto che sia necessaria la clonazione e la comunicazione bidirezionale con i dispositivi di report e i protocolli necessari. Per altre informazioni, vedere Confrontare hub IoT e Hub eventi.
Lakehouse
- Una Fabric lakehouse è una piattaforma unificata per l'architettura dei dati per la gestione e l'analisi di dati strutturati e non strutturati in un formato aperto che usa principalmente file Delta Parquet. Supporta due tipi di archiviazione. Questi tipi di archiviazione sono tabelle gestite come CSV, Parquet o Delta e file non gestiti. Le tabelle gestite vengono riconosciute automaticamente. I file non gestiti richiedono la creazione esplicita della tabella. La piattaforma abilita le trasformazioni dei dati tramite endpoint Spark o SQL e si integra con altri componenti Fabric. Questa integrazione consente la condivisione dei dati senza duplicazione. Questo concetto è allineato all'architettura comune delle medaglie che viene usata nei carichi di lavoro analitici. Per altre informazioni, vedere Lakehouse in Fabric.
Analisi in tempo reale
- azure Databricks
  - Se si dispone di una soluzione Azure Databricks esistente, è possibile continuare a usare lo streaming strutturato Spark per l'analisi in tempo reale. Per altre informazioni, vedere Streaming in Azure Databricks.
- Tessuto
  - Se in precedenza sono stati usati altri servizi di Azure per l'analisi in tempo reale o non si dispone di una soluzione di analisi in tempo reale esistente, vedere Real-time Intelligence e Azure soluzioni di streaming.
  - Lo streaming strutturato di Fabric usa lo streaming strutturato di Spark per elaborare e acquisire flussi di dati in tempo reale come tabelle a cui vengono aggiunti continuamente nuovi dati. Lo streaming strutturato supporta varie origini file, ad esempio CSV, JSON, ORC, Parquet e servizi di messaggistica come Kafka e Hub eventi. Questo approccio garantisce l'elaborazione di flussi scalabili e a tolleranza di errore, che ottimizza gli ambienti di produzione a velocità effettiva elevata. Per altre informazioni, vedere Flusso di dati in un lakehouse con Spark.
Ingegneria dei dati
- Usare Fabric o Azure Databricks per scrivere notebook Spark. Per altre informazioni, vedi Usare i notebook di Fabric. Per sapere come i notebook di Fabric si confrontano con quelli offerti da Azure Synapse Spark, vedere Confronto tra ingegneria dei dati di Fabric e Azure Synapse Spark. Per altre informazioni sui notebook Azure Databricks, vedere Introduzione ai notebook Azure Databricks.
data warehouse o di livello oro
- È possibile usare Fabric o Azure Databricks per creare un warehouse basato su SQL o un livello gold. Per una guida decisionale su come scegliere una soluzione di archiviazione di data warehouse o livello gold all'interno di Fabric, vedere Scegliere un archivio dati. Per altre informazioni sui tipi di SQL Warehouse in Azure Databricks, vedere tipi di SQL Warehouse.
data science
- Usare Fabric o Azure Databricks per le funzionalità di data science. Per altre informazioni sull'offerta di data science Fabric, vedere Data Science in Fabric. Per altre informazioni sull'offerta di Azure Databricks, vedere AI e Machine Learning in Azure Databricks.
- L'analisi scientifica dei dati di Fabric è diversa da Machine Learning. Machine Learning offre una soluzione completa per la gestione dei flussi di lavoro e la distribuzione di modelli di Machine Learning. L'analisi scientifica dei dati di Fabric è personalizzata in base a uno scenario di analisi e creazione di report.
Power BI
- Azure Databricks integrato con Power BI consente l'elaborazione e la visualizzazione dei dati. Per altre informazioni, vedere Connettere Power BI ad Azure Databricks.
- Effettuando il mirroring di Azure Databricks Unity Catalog in Fabric, è possibile accedere direttamente dal workload di Fabric ai dati gestiti da Azure Databricks Unity Catalog. Per ulteriori informazioni, vedi Eseguire il mirroring di Azure Databricks Unity Catalog. È possibile eseguire query su questi dati da Power BI in modalità Direct Lake senza copiare i dati nel servizio Power BI.

Dettagli dello scenario

Le PMI che dispongono di un ambiente Azure Databricks esistente e, facoltativamente, un'architettura lakehouse possono trarre vantaggio da questo modello. Attualmente usano uno strumento di estrazione, trasformazione, caricamento (ETL) Azure, ad esempio Data Factory e gestione dei report in Power BI. Tuttavia, potrebbero anche disporre di più fonti di dati che utilizzano diversi formati di dati proprietari nello stesso data lake, il che comporta problemi di duplicazione dei dati e di dipendenza dal fornitore. Questa situazione può complicare la gestione dei dati e aumentare la dipendenza da fornitori specifici. Potrebbero anche richiedere reportistica aggiornata e in tempo quasi reale a supporto del processo decisionale e voler adottare strumenti di IA nel proprio ambiente operativo.

Fabric è una base SaaS aperta, unificata e regolamentata che è possibile usare per:

Centralizzare i dati in OneLake per archiviare, gestire e analizzare i dati in un'unica posizione senza problemi di blocco del fornitore.
Innovare più velocemente con le integrazioni con le app di Microsoft 365.
Ottenere informazioni rapide con i vantaggi di Power BI modalità Direct Lake.
Approfitta di Copilot in ogni esperienza di Fabric.
Accelerare l'analisi sviluppando modelli di intelligenza artificiale su una singola base.
Mantenere i dati sul posto senza spostamento, riducendo così il tempo necessario per fornire valore ai data scientist.

Contributori

Microsoft gestisce questo articolo. I seguenti collaboratori hanno scritto questo articolo.

Autori principali:

Naren Jogendran | Cloud Solution Architect
Bonita Rui | Cloud Solution Architect

Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.

Passaggi successivi

percorsi di apprendimento per i data engineer
Fabric - Introduzione a Microsoft Learn
Fabric - moduli Microsoft Learn
Creare un account di archiviazione per Data Lake Storage
Avvio rapido di Event Hubs - Creare un hub eventi usando il portale di Azure
Cos'è l'architettura del lago medallion?
Che cos'è una lakehouse in Fabric?

Data lake

Commenti e suggerimenti

Questa pagina è stata utile?