Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Importante
Avviso di deprecazione: Lo scenario di Analisi su scala cloud è stato deprecato e non è più gestito o supportato. Per garantire che vengano visualizzate solo le indicazioni migliori, queste indicazioni verranno eliminate nell'aprile 2026.
Per linee guida aggiornate sui dati CAF, vedere Unify your data platform.
La qualità dei dati è una funzione di gestione dell'analisi su scala cloud. Si trova nella zona di destinazione di gestione dei dati, ed è una parte fondamentale della governance.
Considerazioni sulla qualità dei dati
La qualità dei dati è responsabilità di ogni utente che crea e utilizza prodotti dati. Gli autori devono rispettare le regole globali e di dominio, mentre i consumer devono segnalare le incoerenze dei dati al dominio di dati proprietario tramite un ciclo di feedback.
Poiché la qualità dei dati influisce su tutti i dati forniti al consiglio, deve iniziare ai livelli apicali dell'organizzazione. Il consiglio dovrebbe avere una comprensione della qualità dei dati forniti.
Tuttavia, essere proattivi richiede comunque di disporre di esperti di qualità dei dati in grado di pulire bucket di dati che richiedono la correzione. Evitare di delegare questo lavoro a un team centrale e di coinvolgere invece il dominio dei dati, con conoscenze specifiche, per la pulizia delle informazioni.
Metriche relative alla qualità dei dati
Le metriche relative alla qualità dei dati sono fondamentali per valutare e aumentare la qualità dei prodotti dati. A livello globale e di dominio, è necessario decidere le metriche di qualità. Come minimo, è consigliabile usare le metriche seguenti:
| Metriche | Definizioni delle metriche |
|---|---|
| Completezza = % totale di valori non nulli + non vuoti | Misura la disponibilità dei dati, i campi nel set di dati che non sono vuoti e i valori predefiniti modificati. Ad esempio, se un record include 01/01/1900 come data di nascita, è molto probabile che il campo non sia mai stato popolato. |
| Univocità = % di valori non duplicati | Misura valori distinti in una determinata colonna rispetto al numero di righe nella tabella. Ad esempio, dati quattro valori di colore distinti (rosso, blu, giallo e verde) in una tabella con cinque righe, quel campo è unico all'80% (o 4/5). |
| Coerenza = % dei dati con modelli | Misura la conformità all'interno di una determinata colonna al tipo di dati o al formato previsto. Ad esempio, un campo di posta elettronica contenente indirizzi di posta elettronica formattati o un campo nome con valori numerici. |
| Validità = % della corrispondenza di riferimento | Misura l'abbinamento riuscito dei dati al loro insieme di riferimenti di dominio. Ad esempio, dato un campo Paese/area (conforme ai valori di tassonomia) in un sistema di record transazionali, il valore di "US of A" non è valido. |
| Accuratezza = % di valori non modificati | Misura la corretta riproduzione dei valori previsti in più sistemi. Ad esempio, se una fattura riporta uno SKU e un prezzo complessivo diversi dall'ordine originale, la voce di riga della fattura non è accurata. |
| Collegamento = % di dati ben integrati | Misura l'associazione corretta ai dettagli di riferimento complementari in un altro sistema. Ad esempio, se una fattura elenca in modo errato uno SKU o una descrizione del prodotto, la riga di fattura non può essere collegata. |
Profiling dei dati
La profilatura dei dati esamina i prodotti dati registrati nel catalogo dati e raccoglie statistiche e informazioni su tali dati. Per fornire visualizzazioni di riepilogo e tendenza sulla qualità dei dati nel tempo, archivia questi dati nel repository di metadati relativo al prodotto di dati.
I profili dei dati consentono agli utenti di rispondere alle domande sui prodotti dati, tra cui:
- Può essere usata per risolvere il problema aziendale?
- I dati sono conformi a standard o modelli particolari?
- Quali sono alcune delle anomalie dell'origine dati?
- Quali sono le possibili sfide dell'integrazione di questi dati nell'applicazione?
Gli utenti possono visualizzare il profilo del prodotto dati usando una dashboard per la creazione di report all'interno del marketplace dei dati.
È possibile creare report su elementi come:
- Completezza: indica la percentuale di dati che non è vuota o null.
- Univocità: indica la percentuale di dati non duplicati.
- Coerenza: indica i dati in cui viene mantenuta l'integrità dei dati.
Raccomandazioni sulla qualità dei dati
Per implementare la qualità dei dati, è necessario usare sia la potenza umana che quella computazionale come indicato di seguito:
Usare soluzioni che includono algoritmi, regole, profilatura dei dati e metriche.
Usare esperti di dominio che possono intervenire quando c'è la necessità di addestrare un algoritmo a causa di numerosi errori che attraversano il livello di calcolo.
Convalidare in anticipo. Le soluzioni tradizionali applicano controlli di qualità dei dati dopo l'estrazione, la trasformazione e il caricamento dei dati. A questo punto, il prodotto dati è già in uso e gli errori sono emersi nei prodotti dati a valle. Invece, man mano che i dati vengono inseriti dall'origine, implementare controlli di qualità dei dati vicino alle fonti e prima che i consumatori a valle utilizzino i prodotti di dati. Se è presente un inserimento di batch dal data lake, eseguire questi controlli quando si spostano i dati da non elaborati ad arricchiti.
Prima che i dati siano spostati nel livello arricchito, lo schema e le colonne vengono verificati in base ai metadati registrati nel data catalog.
Se i dati contengono errori, il caricamento viene arrestato e il team dell'applicazione dati riceve una notifica dell'errore.
Se i controlli dello schema e della colonna vengono superati, i dati vengono caricati nei livelli arricchiti con tipi di dati conformi.
Prima di passare al livello arricchito, un processo di qualità dei dati verifica la conformità rispetto agli algoritmi e alle regole.
Suggerimento
Definire le regole di qualità dei dati a livello globale e di dominio. In questo modo, l'azienda potrà definire gli standard per ogni prodotto di dati creato e consentirà ai domini dati di creare regole aggiuntive correlate al proprio dominio.
Soluzioni per la qualità dei dati
È consigliabile valutare Qualità dei dati di Microsoft Purview come soluzione per la valutazione e la gestione della qualità dei dati, fondamentale per informazioni dettagliate e processi decisionali affidabili basati sull'intelligenza artificiale. Comprende:
- Regole no-code/low-code: valutare la qualità dei dati usando regole predefinite generate dall'intelligenza artificiale.
- Profilatura dei dati basata su intelligenza artificiale: consiglia colonne per la profilatura e consente l'intervento umano per il perfezionamento.
- Punteggio qualità dei dati: fornisce punteggi per asset di dati, prodotti dati e domini di governance.
- Avvisi relativi alla qualità dei dati: notifica ai proprietari dei dati problemi di qualità.
Per altre informazioni, vedere Definizione di qualità dei dati
Se l'organizzazione decide di implementare Azure Databricks per modificare i dati, è necessario valutare i controlli di qualità dei dati, i test, il monitoraggio e l'applicazione offerti da questa soluzione. L'uso delle attese può rilevare problemi di qualità dei dati durante l'inserimento prima che influiscano sui prodotti di dati derivati correlati. Per altre informazioni, vedere Stabilire standard di qualità dei dati e Gestione della qualità dei dati con Databricks.
È anche possibile scegliere tra partner, opzioni open source e personalizzate per una soluzione di qualità dei dati.
Riepilogo della qualità dei dati
La correzione della qualità dei dati può avere gravi conseguenze per un'azienda. Può portare le unità aziendali a interpretare i prodotti di dati in modi diversi. Questa interpretazione errata può rivelarsi costosa per l'azienda se le decisioni sono basate su prodotti dati con una qualità dei dati inferiore. La correzione dei prodotti dati con attributi mancanti può essere un'attività costosa e potrebbe richiedere ricaricamenti completi dei dati da diversi periodi.
Convalidare la qualità dei dati in anticipo e mettere in atto processi per risolvere in modo proattivo la scarsa qualità dei dati. Ad esempio, un prodotto dati non può essere rilasciato nell'ambiente di produzione fino a quando non raggiunge una certa quantità di completezza.
È possibile usare gli strumenti come scelta gratuita, ma assicurarsi che includa aspettative (regole), metriche dei dati, profilatura e la possibilità di proteggere le aspettative in modo da poter implementare aspettative globali e basate su dominio.