Esplorare l'elaborazione dei dati analitici
Per l'elaborazione dei dati analitici vengono in genere usati sistemi di sola lettura (o principalmente di lettura) che archiviano grandi volumi di dati cronologici o metriche aziendali. Le analisi possono essere basate su uno snapshot dei dati in un determinato momento o su una serie di snapshot.
Gli specifici dettagli per un sistema di elaborazione analitica possono variare in base alla specifica soluzione, ma un'architettura comune per l'analisi su scala aziendale è simile alla seguente:
I dati operativi vengono estratti, trasformati e caricati (ETL) in un data lake per l'analisi oppure estratti e caricati prima con trasformazioni applicate successivamente, un modello denominato ELT comune nei lakehouse moderni.
I dati vengono caricati in uno schema di tabelle, in genere in un data lakehouse con astrazioni tabulari sui file nel data lake o in un data warehouse con un motore SQL completamente relazionale.
I dati nel data warehouse possono essere aggregati e caricati in un modello OLAP (Online Analytical Processing), oggi più comunemente definito modello semantico (e storicamente un cubo). I valori numerici aggregati (misure) provenienti dalle tabelle dei fatti vengono calcolati in base alle intersezioni delle tabelle delle dimensioni. Ad esempio, è possibile calcolare i totali dei ricavi delle vendite per data, cliente e prodotto. Power BI modelli semantici sono l'esempio più comune che si incontrerà.
I dati inclusi nel data lake, nel data warehouse e nel modello analitico possono essere sottoposti a query in modo da produrre report, visualizzazioni e dashboard.
L'uso di data lake è una pratica comune per gli scenari di elaborazione analitica dei dati su larga scala, in cui è necessario raccogliere e analizzare un volume elevato di dati basati su file.
I data warehouse sono un modo stabilito per archiviare i dati in uno schema relazionale ottimizzato per le operazioni di lettura, principalmente query per supportare la creazione di report e la visualizzazione dei dati.
Data Lakehouses è un'innovazione più recente che combina l'archiviazione flessibile e scalabile di un data lake con la semantica di query relazionale di un data warehouse. Lo schema di tabelle può richiedere una denormalizzazione dei dati in un'origine dati OLTP, introducendo una duplicazione per rendere più veloce l'esecuzione di query.
Un modello OLAP (o modello semantico) è un tipo aggregato di archiviazione dei dati ottimizzato per i carichi di lavoro analitici. Le aggregazioni dei dati si trovano in dimensioni a livelli diversi, consentendo di eseguire il drill-up/down per visualizzare le aggregazioni a più livelli gerarchici; ad esempio, per trovare le vendite totali per area, per città o per un singolo indirizzo. Poiché i dati sono preaggregati, le query per restituire i riepiloghi contenuti possono essere eseguite rapidamente.
Diversi tipi di utenti possono eseguire operazioni analitiche sui dati in diverse fasi dell'architettura complessiva. Ad esempio:
- Gli scienziati dei dati possono lavorare direttamente con i file di dati in un data lake per esplorare e modellare i dati.
- Gli analisti dei dati possono eseguire query sulle tabelle direttamente nel data warehouse per produrre report e visualizzazioni complesse.
- Gli utenti aziendali possono utilizzare dati preaggregati in un modello analitico sotto forma di report o dashboard.
Piattaforme di analisi moderne
Azure offre diversi servizi gestiti che coprono la pipeline di analisi completa, dall'inserimento di dati non elaborati a report interattivi. Due piattaforme "all-in-one" riuniscono la maggior parte di queste funzionalità in un'unica area di lavoro. Microsoft Fabric e Azure Databricks sono queste due piattaforme; un terzo servizio, Microsoft Purview, incentrato sulla governance dei dati in tutte le origini. Non è ancora necessario avere familiarità con nessuno di questi servizi. Le descrizioni seguenti offrono un'idea generale di ciò che ognuno fa.
Microsoft Fabric è una piattaforma di analisi saaS (Software as a Service) unificata che offre funzionalità di archiviazione, ingegneria dei dati, data warehousing e creazione di report in un'unica area di lavoro. Azure Databricks è una piattaforma di analisi cloud creata per data engineering e data science su larga scala, usando Delta Lake, Parquet e un log delle transazioni che consente il controllo delle versioni e le transazioni ACID, come formato di archiviazione standard. Microsoft Purview offre sicurezza unificata dei dati, governance e conformità, consentendo di individuare, classificare, proteggere e gestire i dati in tutte le origini dati.
Organizzazione dei dati con l'architettura Medallion
Uno schema comune per organizzare i dati in un lakehouse è l'architettura medallion, che si articola in tre livelli:
- Bronzo: dati non elaborati inseriti as-is dai sistemi di origine, senza trasformazioni applicate, mantenendo i record originali per la rielaborazione.
- Silver: dati puliti e conformi, con duplicati rimossi e tipi di dati standardizzati.
- Gold: dati aggregati e pronti per l'azienda modellati per casi d'uso specifici di report e analisi.
I team usano questo modello perché creano limiti di qualità chiari a ogni livello ed è sempre possibile rielaborare i dati dai record Bronze originali se i requisiti cambiano.
Sia Fabric che Databricks includono esperienze Copilot che consentono di esplorare i dati usando il linguaggio naturale.