Gegevensclassificatie

Op deze pagina wordt beschreven hoe u Databricks-gegevensclassificatie in Unity Catalog gebruikt om gevoelige gegevens in uw catalogus automatisch te classificeren en taggen.

Gegevenscatalogussen kunnen een enorme hoeveelheid gegevens bevatten, die vaak bekende en onbekende gevoelige gegevens bevatten. Het is essentieel dat gegevensteams begrijpen wat voor soort gevoelige gegevens er in elke tabel bestaan, zodat ze de toegang tot deze gegevens kunnen beheren en democratiseren.

Om dit probleem op te lossen, gebruikt Databricks Data Classification een AI-agent om tabellen in uw catalogus automatisch te classificeren en taggen. Hiermee kunt u gevoelige gegevens detecteren en beheerbesturingselementen toepassen op de resultaten, met behulp van hulpprogramma's zoals op kenmerken gebaseerd toegangsbeheer in Unity Catalog. Zie Ondersteunde classificatietags voor een lijst met ondersteunde tags.

Met deze functie kunt u het volgende doen:

  • Gegevens classificeren: de engine maakt gebruik van een agentisch AI-systeem om tabellen in Unity Catalog automatisch te classificeren en taggen.
  • Kosten optimaliseren door intelligent scannen: Het systeem bepaalt op intelligente wijze wanneer u uw gegevens moet scannen door gebruik te maken van Unity Catalog en de Data Intelligence Engine. Dit betekent dat scannen incrementeel en geoptimaliseerd is om ervoor te zorgen dat alle nieuwe gegevens worden geclassificeerd zonder handmatige configuratie.
  • Gevoelige gegevens controleren en beveiligen: De resultatenweergave helpt u bij het weergeven van classificatieresultaten en het beveiligen van gevoelige gegevens door voor elke klasse beleidsregels voor toegangsbeheer te taggen en te maken.

Belangrijk

Databricks Data Classification maakt gebruik van standaardopslag voor het opslaan van classificatieresultaten. U wordt niet gefactureerd voor de opslag.

Databricks Data Classification maakt gebruik van een LLM (Large Language Model) om u te helpen bij de classificatie.

Behoeften

Opmerking

Gegevensclassificatie is een preview-functie op werkruimteniveau en kan alleen worden beheerd door een werkruimte- of accountbeheerder. Zie Voorbeelden van Azure Databricks voor instructies.

  • Uw werkruimte moet serverloze rekenkracht beschikbaar hebben (standaard ingeschakeld in werkruimten met Unity Catalog).
  • Als u gegevensclassificatie wilt inschakelen, moet u eigenaar zijn van de catalogus of beschikken over USE CATALOG en MANAGE bevoegdheden.
  • Als u automatische tagging voor een catalogus wilt inschakelen, moet USE CATALOG op de catalogus zijn, APPLY TAG op de catalogus zijn, en ASSIGN op de tag die wordt toegepast.
  • Als u de classificatieresultaten in de gebruikersinterface wilt weergeven, moet u USE CATALOG en MANAGE of (SELECT + USE SCHEMA) in de catalogus hebben. Als u voorbeeldwaarden wilt zien die zijn gekoppeld aan detecties, moet u SELECT hebben op de resultaten systeemtafel.

Opmerking

Standaard hebben alleen accountbeheerders MANAGE en ASSIGN machtigingen voor door het systeem beheerde tags in het systeem voor gegevensclassificatie. Accountbeheerders kunnen MANAGE en ASSIGN toekennen aan afzonderlijke beheerde tags voor andere gebruikers, service-principals of groepen. Zie Machtigingen beheren voor beheerde tags.

Gegevensclassificatie gebruiken

U kunt gegevensclassificatie voor meerdere catalogi tegelijk inschakelen vanaf de resultatenpagina of afzonderlijke catalogi configureren met gedetailleerdere besturingselementen op schemaniveau.

Meerdere catalogi inschakelen

  1. Klik op de pagina Gegevensclassificatieresultaten op Configureren.
  2. Selecteer de catalogi die u wilt inschakelen of selecteer alle beschikbare catalogi in de werkruimte.
  3. Klik op Inschakelen.

Als u alle beschikbare catalogi inschakelt, worden toekomstige catalogi niet automatisch ingeschakeld. Als u een nieuwe catalogus wilt classificeren, gaat u terug naar het dialoogvenster Configureren en schakelt u deze in.

Eén catalogus met schemaselectie inschakelen

Specifieke schema's kiezen in een catalogus:

  1. Navigeer naar de catalogus en klik op het tabblad Details .

    Tabblad Details voor de cataloguspagina in Catalog Explorer.

  2. Klik naast Gegevensclassificatie op de knop Inschakelen .

  3. Het dialoogvenster Gegevensclassificatie wordt weergegeven. Standaard zijn alle schema's opgenomen. Als u alleen bepaalde schema's wilt opnemen, selecteert u deze in de vervolgkeuzelijst Schema's om deze op te nemen . U kunt ook een gebruiksbeleid selecteren

    Instellingen modaal voor gegevensclassificatie.

  4. Klik op Opslaan.

Hiermee maakt u een achtergrondtaak waarmee alle tabellen in de catalogus of geselecteerde schema's incrementeel worden gescand.

De classificatie-engine is afhankelijk van intelligente scans om te bepalen wanneer een tabel moet worden gescand. Nieuwe tabellen en kolommen in een catalogus worden doorgaans binnen 24 uur na het maken gescand.

Classificatieresultaten weergeven

Als u classificatieresultaten wilt weergeven, klikt u op Resultaten weergeven naast de instelling Gegevensclassificatie .

Knop Resultaten weergeven voor gegevensclassificatie.

Hiermee opent u de gebruikersinterface voor gegevensclassificatie voor de catalogus. Voor het weergeven van classificatieresultaten is een serverloze SQL Warehouse vereist.

U kunt ook geaggregeerde resultaten weergeven voor alle geclassificeerde catalogi in de metastore met behulp van de cataloguskiezer linksboven. Kies Alle catalogi in de vervolgkeuzelijst.

Voor elk classificatietype wordt in de tabel het volgende weergegeven:

  • Gedetecteerde kolommen: het aantal kolommen waar de classificatie is gedetecteerd.
  • Automatisch taggen: de tagstatus voor die classificatie: actief of inactief. In de metastoreweergave geeft een status gedeeltelijk actief aan dat taggen is ingeschakeld in sommige, maar niet alle catalogi.
  • Gebruikerstoegang (laatste 7d): het aantal afzonderlijke gebruikers dat niet-gemaskeerde versus gemaskeerde gegevens van die classificatie heeft geopend gedurende de afgelopen 7 dagen. Gebruik deze optie om de blootstelling van gevoelige gegevens in uw organisatie te beoordelen.

Resultatenpagina met een tabel met gedetecteerde klassen.

Detecties controleren

Als u de resultaten voor een specifiek classificatietype wilt bekijken, klikt u in de meest rechtse kolom op Controleren . Er wordt een deelvenster met twee tabbladen weergegeven:

  • Gedetecteerde kolommen: geeft de kolommen weer waarin de classificatietag met hoge betrouwbaarheid is gedetecteerd, geordend door de meest recente detectie eerst. Bevat ook een detectiegrafiek in de loop van de tijd en een lijst met gedetecteerde kolommen met voorbeeldwaarden. Klik op een balk in de grafiek om de specifieke detecties voor die datum weer te geven. Voorbeeldwaarden worden alleen weergegeven als u over de vereiste machtigingen beschikt om classificatieresultaten weer te geven.
  • Gebruikerstoegang: geeft een lijst weer van alle gebruikers die toegang hebben tot kolommen met deze classificatietag, met hun e-mailadres en gebruikersnaam, samen met of ze gemaskeerde of ontmaskerde toegang hebben. Toont ook eventuele ABAC-beleidsregels (op kenmerken gebaseerd toegangsbeheer) die zijn toegewezen aan deze classificatietag. Wanneer u resultaten voor één catalogus bekijkt, kunt u rechtstreeks vanuit het deelvenster een nieuw ABAC-beleid maken.

Resultaten met kolommen met gedetecteerde classificaties.

Als gedetecteerde kolommen onjuist zijn, kunt u rechts van de vermelding op het pictogram Uitsluiten klikken. Zie Detecties uitsluiten.

Automatische taggen inschakelen

Als de geïdentificeerde kolommen overeenkomen met uw verwachtingen, kunt u automatische tagging voor de classificatietag inschakelen. Wanneer automatisch taggen is ingeschakeld, worden alle bestaande en toekomstige detecties van deze classificatie gelabeld.

U kunt automatische tagging op twee niveaus configureren:

  • Metastore-niveau: alle catalogi tegelijk in- of uitschakelen. U moet een metastore-beheerder zijn en ASSIGN rechten hebben op de tag die wordt toegepast.
  • Catalogusniveau: alleen voor de huidige catalogus in- of uitschakelen. Instellingen op catalogusniveau hebben voorrang op de instelling op metastore-niveau. U moet USE CATALOG en APPLY TAG op de catalogus hebben, en ASSIGN op de tag die wordt toegepast.

Op catalogusniveau heeft automatisch taggen drie statussen:

  • Standaardinstelling (overgenomen): de catalogus neemt de tag-instelling over van het metastore-niveau.
  • Actief: Taggen is expliciet ingeschakeld voor deze catalogus, ongeacht de instelling op metastoreniveau.
  • Inactief: Taggen is expliciet uitgeschakeld voor deze catalogus, ongeacht de instelling op metastoreniveau.

Wanneer u taggen uitschakelt, worden er geen toekomstige tags toegepast, maar worden bestaande tags niet verwijderd.

Opmerking

Wanneer u automatische tagging inschakelt, worden tags niet onmiddellijk opnieuw ingevuld. Ze worden automatisch gevuld bij de volgende scan, die binnen 24 uur moet worden uitgevoerd. Volgende classificaties worden onmiddellijk gelabeld.

Detecties uitsluiten

Belangrijk

Detectieuitsluitingen en hun gebruik om de nauwkeurigheid van toekomstige classificaties te verbeteren, bevinden zich in bèta.

In het controlevenster kunt u afzonderlijke kolomdetecties uitsluiten. Een detectie uitsluiten:

  • Hiermee verwijdert u alle bestaande classificatietags uit die kolom.
  • Hiermee voorkomt u dat toekomstige scans de tag opnieuw toepassen op die kolom.
  • Geeft feedback die de nauwkeurigheid van toekomstige classificatieresultaten verbetert.

Als u een detectie wilt uitsluiten, klikt u op het pictogram Uitsluiten voor de bijbehorende kolom in het revisievenster. Als u de detectie opnieuw wilt opnemen, klikt u nogmaals op het pictogram.

Een afzonderlijke kolom uitsluiten van detectie.

De resultatensysteemtabel

Gegevensclassificatie maakt een systeemtabel met de naam system.data_classification.results om resultaten op te slaan die standaard alleen toegankelijk zijn voor de accountbeheerder. De accountbeheerder kan deze tabel delen. De tabel is alleen toegankelijk wanneer u serverloze berekeningen gebruikt. Zie voor meer informatie over deze tabel de naslaginformatie over de tabel voor gegevensclassificatie.

Belangrijk

De resultatentabel system.data_classification.results bevat alle classificatieresultaten in de hele metastore en bevat voorbeeldwaarden uit tabellen in elke catalogus. U moet deze tabel alleen delen met gebruikers die bevoegd zijn om metastore-brede classificatieresultaten te zien, inclusief voorbeeldwaarden.

Gebruikers met SELECT toegang tot deze tabel kunnen ook voorbeeldwaarden zien die zijn gekoppeld aan detecties op de pagina Resultaten van gegevensclassificatie.

Beheersmaatregelen voor governance instellen op basis van resultaten van gegevensclassificatie

Gevoelige gegevens maskeren met een ABAC-beleid

Databricks raadt het gebruik van op kenmerken gebaseerd toegangsbeheer in Unity Catalog aan om beheerbesturingselementen te maken op basis van resultaten van gegevensclassificatie.

Als u een beleid wilt maken op de pagina Met resultaten voor gegevensclassificatie, klikt u op Controleren op een classificatietag, opent u het tabblad Gebruikerstoegang en klikt u op Nieuw beleid. Het beleidsformulier is vooraf ingevuld om kolommen met een te beoordelen classificatietag te maskeren. Als u de gegevens wilt maskeren, geeft u een maskeringsfunctie op die is geregistreerd in Unity Catalog en klikt u op Opslaan.

U kunt ook een beleid maken dat betrekking heeft op meerdere classificatietags door te wijzigen wanneer de kolomvoldoet aan de voorwaarde en meerdere tags op te geven.

Als u bijvoorbeeld een beleid wilt maken met de naam Vertrouwelijk, waarmee elke naam, e-mail of telefoonnummer wordt gemaskeerd, stelt u de voorwaarden in op .has_tag("class.name") OR has_tag("class.email_address") OR has_tag("class.phone_number")

AVG-detectie en -verwijdering

In dit voorbeeldnotebook ziet u hoe u gegevensclassificatie kunt gebruiken om te helpen bij het detecteren en verwijderen van gegevens voor AVG-naleving.

AVG-detectie en -verwijdering met behulp van een notebook voor gegevensclassificatie

Notebook krijgen

Hoe om te gaan met onjuiste tags

Als een classificatie onjuist is, sluit u de detectie uit van het beoordelingsvenster. Als u een detectie uitsluit, wordt de tag verwijderd, wordt voorkomen dat deze opnieuw wordt toegepast en wordt de nauwkeurigheid van toekomstige scans verbeterd. Zie Detecties uitsluiten.

Scanfouten

Als er fouten optreden tijdens de scan, wordt rechtsboven in de resultatentabel een knop Fouten weergegeven.

Resultatenpagina met de knop Fouten rechtsbovenaan in de tabel.

Klik op de knop om de tabellen weer te geven waarvoor de scan en de bijbehorende foutberichten zijn mislukt.

Fouten bij het scannen van gegevensclassificatietabellen.

Standaard worden fouten die zijn opgetreden voor afzonderlijke tabellen overgeslagen en de volgende dag opnieuw geprobeerd.

Uitgaven voor gegevensclassificatie weergeven

Als u wilt weten hoe gegevensclassificatie wordt gefactureerd, raadpleegt u de pagina met prijzen. U kunt uitgaven met betrekking tot gegevensclassificatie weergeven door een query uit te voeren of het gebruiksdashboard weer te geven.

Opmerking

De eerste scan is duurder dan latere scans in dezelfde catalogus, omdat deze scans incrementeel zijn en doorgaans lagere kosten in rekening worden gebracht.

Gebruik van de systeemtabel weergeven system.billing.usage

U kunt kosten voor gegevensclassificatie opvragen van system.billing.usage. De velden created_by en catalog_id kunnen eventueel worden gebruikt om de kosten op te splitsen:

  • created_by: Kies ervoor om de kosten te bekijken van de gebruiker die het gebruik heeft gestart.
  • catalog_id: Inclusief om de kosten per catalogus te bekijken. De catalogus-id wordt weergegeven in de system.data_classification.results tabel.

Voorbeeldquery voor de afgelopen 30 dagen:

SELECT
   usage_date,
   identity_metadata.created_by,
   usage_metadata.catalog_id,
   SUM(usage_quantity) AS dbus
FROM
   system.billing.usage
WHERE
   usage_date >= DATE_SUB(CURRENT_DATE(), 30)
  AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
   usage_date,
   created_by,
   catalog_id
ORDER BY
   usage_date DESC,
   created_by;

Om de totale dollarkosten te berekenen, sluit u zich aan bij system.billing.list_prices. In de volgende voorbeeldquery wordt een benoemde parameter :add_on_rate gebruikt als een vermenigvuldiger voor de catalogusprijs. Stel deze in om 1 de catalogusprijs rechtstreeks te gebruiken of op een waarde kleiner dan 1 om een onderhandelde korting weer te geven (bijvoorbeeld 0.9 voor een korting van 10%).

Voorbeeldquery voor de totale kosten in dollars in de afgelopen 30 dagen.

SELECT
  u.usage_date,
  SUM(u.usage_quantity * lp.pricing.effective_list.default) * :add_on_rate
    AS `Data Classification Dollar Cost`
FROM system.billing.usage AS u
JOIN system.billing.list_prices AS lp
  ON lp.sku_name = u.sku_name
WHERE
  u.billing_origin_product = 'DATA_CLASSIFICATION'
  AND u.usage_end_time >= lp.price_start_time
  AND (lp.price_end_time IS NULL OR u.usage_end_time < lp.price_end_time)
  AND u.usage_date >= DATE_ADD(CURRENT_DATE(), -30)
GROUP BY
  u.usage_date
ORDER BY
  u.usage_date DESC;

Gebruik weergeven vanuit het gebruiksdashboard

Als u al een gebruiksdashboard hebt geconfigureerd in uw werkruimte, kunt u dit gebruiken om het gebruik te filteren door het Project factureringsoorsprong te selecteren met het label 'Gegevensclassificatie'. Als u geen gebruiksdashboard hebt geconfigureerd, kunt u er een importeren en dezelfde filters toepassen. Zie Gebruiksdashboards voor meer informatie.

Ondersteunde classificatietags

Zie Ondersteunde classificatietags voor een volledige lijst met ondersteunde tags die zijn georganiseerd door globale tags, regionale tags en nalevingsframeworks (PII, AVG, HIPAA, DPDPA).

Beperkingen

  • Weergaven en metrische weergaven worden niet ondersteund. Als de weergave is gebaseerd op bestaande tabellen, raadt Databricks aan om de onderliggende tabellen te classificeren om te zien of ze gevoelige gegevens bevatten.