Condividi tramite


Classificazione dei Dati

Importante

Questa funzionalità è in Anteprima Pubblica.

Questa pagina descrive come usare Databricks Data Classification in Unity Catalog per classificare e contrassegnare automaticamente i dati sensibili nel catalogo.

I cataloghi di dati possono avere una grande quantità di dati, spesso contenenti dati sensibili noti e sconosciuti. È fondamentale che i team di dati comprendano il tipo di dati sensibili presenti in ogni tabella in modo che possano gestire e democratizzare l'accesso a questi dati.

Per risolvere questo problema, Databricks Data Classification usa un agente di intelligenza artificiale per classificare e contrassegnare automaticamente le tabelle nel catalogo. In questo modo è possibile individuare dati sensibili e applicare controlli di governance sui risultati, usando strumenti come il controllo degli accessi in base all'attributo di Unity Catalog. Per un elenco dei tag supportati, vedere Tag di classificazione supportati.

Usando questa funzionalità, è possibile:

  • Classificare i dati: il motore usa un sistema di intelligenza artificiale agente per classificare e contrassegnare automaticamente le tabelle in Unity Catalog.
  • Ottimizzare i costi tramite l'analisi intelligente: il sistema determina in modo intelligente quando analizzare i dati sfruttando Unity Catalog e il motore di business intelligence dei dati. Ciò significa che l'analisi è incrementale e ottimizzata per garantire che tutti i nuovi dati vengano classificati senza configurazione manuale.
  • Esaminare e proteggere i dati sensibili: i risultati visualizzati consentono di visualizzare i risultati della classificazione e proteggere i dati sensibili contrassegnando e creando criteri di controllo di accesso per ogni classe.

Importante

Databricks Data Classification usa l'archiviazione predefinita per archiviare i risultati della classificazione. Non viene addebitato alcun costo per lo spazio di archiviazione.

Databricks Data Classification usa un modello di linguaggio di grandi dimensioni (LLM) per facilitare la classificazione.

Requisiti

Annotazioni

La classificazione dei dati è una funzionalità di anteprima a livello di area di lavoro e può essere gestita solo da un'area di lavoro o da un amministratore dell'account. Per istruzioni, vedere Gestire le anteprime di Azure Databricks.

Importante

Il modello che alimenta questa funzione viene reso disponibile usando le API Mosaic AI Model Serving Foundation Model. Per altre informazioni, vedere Licenze e condizioni per sviluppatori di modelli applicabili.

  • È necessario che il calcolo serverless sia abilitato. Vedi Connettersi al calcolo serverless.
  • Per abilitare la classificazione dei dati, è necessario possedere il catalogo o avere i privilegi USE CATALOG e MANAGE su di esso.
  • Per abilitare l'assegnazione automatica di tag per un catalogo, è necessario avere USE CATALOG sul catalogo, APPLY TAG sul catalogo e ASSIGN sul tag applicato.
  • Per visualizzare la tabella dei risultati, è necessario disporre delle autorizzazioni seguenti: USE CATALOG e USE SCHEMA, più SELECT nella tabella. Vedere La tabella di sistema dei risultati.

Annotazioni

Per impostazione predefinita, solo gli amministratori dell'account dispongono delle autorizzazioni di MANAGE e ASSIGN per i tag regolati dal sistema di classificazione dei dati. Gli amministratori dell'account possono concedere MANAGE e ASSIGN per singoli tag regolamentati ad altri utenti, principali del servizio o gruppi. Vedere Gestire le autorizzazioni per i tag regolamentati.

Usare la classificazione dei dati

Per usare la classificazione dei dati in un catalogo:

  1. Passare al catalogo e fare clic sulla scheda Dettagli .

    Scheda dei dettagli per la pagina del catalogo in Catalog Explorer.

  2. Fare clic sull'interruttore Classificazione dati per abilitarlo.

  3. Viene visualizzata la finestra di dialogo Abilita classificazione dati . Per impostazione predefinita, sono inclusi tutti gli schemi. Per includere solo alcuni schemi, selezionarli nel menu a discesa Schemi da includere .

    Modale delle impostazioni per la classificazione dei dati.

  4. Fare clic su Abilita.

Verrà creato un processo in background che analizza in modo incrementale tutte le tabelle nel catalogo o negli schemi selezionati.

Il motore di classificazione si basa sull'analisi intelligente per determinare quando analizzare una tabella. Le nuove tabelle e le colonne in un catalogo vengono in genere analizzate entro 24 ore dalla creazione.

Visualizzare i risultati della classificazione

Per visualizzare i risultati della classificazione, fare clic su Visualizza risultati accanto all'interruttore.

Vedere il pulsante dei risultati per classificazione dei dati.

Viene visualizzata una pagina dei risultati che mostra i risultati della classificazione per tutte le tabelle nel catalogo. Per selezionare un catalogo diverso, usare il selettore in alto a sinistra della pagina. È necessario un archivio SQL serverless, che viene visualizzato in alto a destra della pagina.

Nella pagina dei risultati sono elencati i tag di classificazione identificati nel catalogo. Tutti i criteri ABAC esistenti che fanno riferimento ai tag del sistema di classificazione dei dati (class.xx) vengono visualizzati nella tabella.

Pagina dei risultati che mostra la tabella delle classi rilevate.

Per esaminare i risultati di un tag di classificazione specifico, fare clic su Rivedi nella colonna più a destra per la riga corrispondente.

Risultati che mostrano colonne con classificazioni rilevate.

Viene visualizzato un pannello che visualizza le tabelle per le quali la classificazione dei dati ha rilevato il tag di classificazione con attendibilità elevata. Esaminare le tabelle, le colonne e i valori di esempio. I valori di esempio vengono visualizzati solo se si ha accesso alla tabella dei risultati. Vedere La tabella di sistema dei risultati.

Se le colonne identificate corrispondono alle aspettative, è possibile abilitare l'assegnazione automatica di tag per il tag di classificazione per questo catalogo. Quando l'assegnazione automatica di tag è abilitata, vengono contrassegnati tutti i rilevamenti esistenti e futuri di questa classificazione.

Per abilitare l'assegnazione automatica di tag, attivare o disattivare il tag Auto con .... È necessario avere USE CATALOG nel catalogo, APPLY TAG nel catalogo e ASSIGN nel tag applicato. In seguito è possibile disabilitare l'assegnazione automatica di tag usando lo stesso interruttore. Quando si disabilita l'assegnazione di tag, non vengono applicati tag futuri, ma i tag esistenti non vengono rimossi.

Annotazioni

Quando si abilita l'assegnazione automatica di tag, i tag non vengono riempiti immediatamente. Verranno popolati nella scansione successiva, che diventerà effettiva entro 24 ore. Le classificazioni successive verranno contrassegnate immediatamente.

Tabella di sistema dei risultati

La classificazione dei dati crea una tabella di sistema denominata system.data_classification.results per archiviare i risultati che per impostazione predefinita sono accessibili solo all'amministratore dell'account. L'amministratore dell'account può condividere questa tabella. La tabella è accessibile solo quando si usa il calcolo serverless. Per informazioni dettagliate su questa tabella, vedere Informazioni di riferimento sulla tabella di sistema di classificazione dei dati.

Importante

La tabella system.data_classification.results dei risultati contiene tutti i risultati della classificazione nell'intero metastore e include i valori di esempio delle tabelle in ogni catalogo. È consigliabile condividere questa tabella solo con gli utenti con privilegi per visualizzare i risultati della classificazione a livello di metastore, inclusi i valori di esempio.

Per visualizzare la tabella dei risultati sono necessarie le autorizzazioni seguenti: USE CATALOG e USE SCHEMA, più SELECT nella tabella. Gli utenti con MANAGE o SELECT l'accesso a un catalogo possono visualizzare i risultati nella pagina, ma non possono visualizzare i valori di esempio.

Configurare i controlli di governance in base ai risultati della classificazione dei dati

Mascherare i dati sensibili usando un criterio di controllo degli accessi basato sugli attributi.

Databricks consiglia di usare il controllo degli accessi in base all'attributo di Unity Catalog per creare controlli di governance in base ai risultati della classificazione dei dati.

Per creare un criterio, fare clic su Nuovo criterio. Il modulo dei criteri viene precompilato per mascherare le colonne con il tag di classificazione da esaminare. Per mascherare i dati, specificare qualsiasi funzione di maschera registrata nel catalogo unity e fare clic su Salva.

È anche possibile creare criteri che coprono più tag di classificazione, modificando Quando la colonnasoddisfa la condizione e fornendo più tag.

Ad esempio, per creare un criterio denominato "Riservato" che maschera qualsiasi nome, indirizzo di posta elettronica o numero di telefono, impostare la condizione soddisfa su hasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number").

Individuazione ed eliminazione dei dati secondo il GDPR

Questo notebook di esempio illustra come usare la classificazione dei dati per facilitare l'individuazione e l'eliminazione dei dati per la conformità al GDPR.

Individuazione ed eliminazione dei dati ai sensi del GDPR utilizzando un notebook per la classificazione dei dati

Ottieni il notebook

Come gestire tag non corretti

Se i dati sono contrassegnati in modo non corretto, è possibile rimuovere manualmente il tag. Il tag non verrà riapplicato nelle analisi future.

Per rimuovere un tag usando l'interfaccia utente, passare alla tabella in Esplora cataloghi e modificare i tag di colonna.

Per rimuovere un tag tramite SQL:

ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')

Errori di scansione

Se si verificano errori durante l'analisi, viene visualizzato un pulsante Errori in alto a destra nella tabella dei risultati.

Pagina Risultati con pulsante Errori in alto a destra della tabella.

Fare clic sul pulsante per visualizzare le tabelle che non hanno superato l'analisi e i messaggi di errore associati.

Errori di analisi della tabella di classificazione dei dati.

Per impostazione predefinita, gli errori che si sono verificati per le singole tabelle vengono ignorati e ritentati il giorno successivo.

Visualizzare le spese di classificazione dei dati

Per informazioni sulla fatturazione della classificazione dei dati, vedere la pagina dei prezzi. È possibile visualizzare le spese correlate alla classificazione dei dati eseguendo una query o visualizzando il dashboard di utilizzo.

Annotazioni

L'analisi iniziale è più costosa rispetto alle analisi successive sullo stesso catalogo, poiché tali analisi sono incrementali e in genere comportano costi inferiori.

Visualizzare l'utilizzo dalla tabella di sistema system.billing.usage

È possibile eseguire query sulle spese di classificazione dei dati da system.billing.usage. I campi created_by e catalog_id possono essere usati facoltativamente per suddividere i costi:

  • created_by: Includere per visualizzare i costi per l'utente che ha attivato l'utilizzo.
  • catalog_id: includere per visualizzare i costi in base al catalogo. L'ID catalogo viene visualizzato nella system.data_classification.results tabella .

Query di esempio per gli ultimi 30 giorni:

SELECT
   usage_date,
   identity_metadata.created_by,
   usage_metadata.catalog_id,
   SUM(usage_quantity) AS dbus
FROM
   system.billing.usage
WHERE
   usage_date >= DATE_SUB(CURRENT_DATE(), 30)
  AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
   usage_date,
   created_by,
   catalog_id
ORDER BY
   usage_date DESC,
   created_by;

Per calcolare il costo totale in dollari, connettersi con system.billing.list_prices. La query di esempio seguente usa un parametro :add_on_rate denominato come moltiplicatore per il prezzo di listino. Impostarlo su 1 per utilizzare direttamente il prezzo di listino o su un valore minore di 1 per riflettere uno sconto concordato (ad esempio, 0.9 per uno sconto del 10%).

Query di esempio per il costo totale del dollaro negli ultimi 30 giorni:

SELECT
  u.usage_date,
  SUM(u.usage_quantity * lp.pricing.effective_list.default) * :add_on_rate
    AS `Data Classification Dollar Cost`
FROM system.billing.usage AS u
JOIN system.billing.list_prices AS lp
  ON lp.sku_name = u.sku_name
WHERE
  u.billing_origin_product = 'DATA_CLASSIFICATION'
  AND u.usage_end_time >= lp.price_start_time
  AND (lp.price_end_time IS NULL OR u.usage_end_time < lp.price_end_time)
  AND u.usage_date >= DATE_ADD(CURRENT_DATE(), -30)
GROUP BY
  u.usage_date
ORDER BY
  u.usage_date DESC;

Visualizzare l'utilizzo dal dashboard di utilizzo

Se nell'area di lavoro è già configurato un dashboard di utilizzo, è possibile usarlo per filtrare l'utilizzo selezionando il progetto origine fatturazione con l'etichetta "Classificazione dati". Se non è configurato un dashboard di utilizzo, è possibile importarne uno e applicare lo stesso filtro. Per informazioni dettagliate, vedere Dashboard di utilizzo.

Tag di classificazione supportati

Per un elenco completo dei tag supportati organizzati da tag globali, tag regionali e framework di conformità (PII, GDPR, HIPAA, DPDPA), vedere Tag di classificazione supportati.

Limitazioni