Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Op deze pagina wordt beschreven hoe u Databricks-gegevensclassificatie in Unity Catalog gebruikt om gevoelige gegevens in uw catalogus automatisch te classificeren en taggen.
Gegevenscatalogussen kunnen een enorme hoeveelheid gegevens bevatten, die vaak bekende en onbekende gevoelige gegevens bevatten. Het is essentieel dat gegevensteams begrijpen wat voor soort gevoelige gegevens er in elke tabel bestaan, zodat ze de toegang tot deze gegevens kunnen beheren en democratiseren.
Om dit probleem op te lossen, gebruikt Databricks Data Classification een AI-agent om tabellen in uw catalogus automatisch te classificeren en taggen. Hiermee kunt u gevoelige gegevens detecteren en beheerbesturingselementen toepassen op de resultaten, met behulp van hulpprogramma's zoals op kenmerken gebaseerd toegangsbeheer in Unity Catalog. Zie Ondersteunde classificatietags voor een lijst met ondersteunde tags.
Met deze functie kunt u het volgende doen:
- Gegevens classificeren: de engine maakt gebruik van een agentisch AI-systeem om tabellen in Unity Catalog automatisch te classificeren en taggen.
- Kosten optimaliseren door intelligent scannen: Het systeem bepaalt op intelligente wijze wanneer u uw gegevens moet scannen door gebruik te maken van Unity Catalog en de Data Intelligence Engine. Dit betekent dat scannen incrementeel en geoptimaliseerd is om ervoor te zorgen dat alle nieuwe gegevens worden geclassificeerd zonder handmatige configuratie.
- Gevoelige gegevens controleren en beveiligen: De resultatenweergave helpt u bij het weergeven van classificatieresultaten en het beveiligen van gevoelige gegevens door voor elke klasse beleidsregels voor toegangsbeheer te taggen en te maken.
Belangrijk
Databricks Data Classification maakt gebruik van standaardopslag voor het opslaan van classificatieresultaten. U wordt niet gefactureerd voor de opslag.
Databricks Data Classification maakt gebruik van een LLM (Large Language Model) om u te helpen bij de classificatie.
Behoeften
Opmerking
Gegevensclassificatie is een preview-functie op werkruimteniveau en kan alleen worden beheerd door een werkruimte- of accountbeheerder. Zie Voorbeelden van Azure Databricks voor instructies.
- Uw werkruimte moet serverloze rekenkracht beschikbaar hebben (standaard ingeschakeld in werkruimten met Unity Catalog).
- Als u gegevensclassificatie wilt inschakelen, moet u eigenaar zijn van de catalogus of beschikken over
USE CATALOGenMANAGEbevoegdheden. - Als u automatische tagging voor een catalogus wilt inschakelen, moet
USE CATALOGop de catalogus zijn,APPLY TAGop de catalogus zijn, enASSIGNop de tag die wordt toegepast. - Als u de classificatieresultaten in de gebruikersinterface wilt weergeven, moet u
USE CATALOGenMANAGEof (SELECT+USE SCHEMA) in de catalogus hebben. Als u voorbeeldwaarden wilt zien die zijn gekoppeld aan detecties, moet uSELECThebben op de resultaten systeemtafel.
Opmerking
Standaard hebben alleen accountbeheerders MANAGE en ASSIGN machtigingen voor door het systeem beheerde tags in het systeem voor gegevensclassificatie. Accountbeheerders kunnen MANAGE en ASSIGN toekennen aan afzonderlijke beheerde tags voor andere gebruikers, service-principals of groepen. Zie Machtigingen beheren voor beheerde tags.
Gegevensclassificatie gebruiken
U kunt gegevensclassificatie voor meerdere catalogi tegelijk inschakelen vanaf de resultatenpagina of afzonderlijke catalogi configureren met gedetailleerdere besturingselementen op schemaniveau.
Meerdere catalogi inschakelen
- Klik op de pagina Gegevensclassificatieresultaten op Configureren.
- Selecteer de catalogi die u wilt inschakelen of selecteer alle beschikbare catalogi in de werkruimte.
- Klik op Inschakelen.
Als u alle beschikbare catalogi inschakelt, worden toekomstige catalogi niet automatisch ingeschakeld. Als u een nieuwe catalogus wilt classificeren, gaat u terug naar het dialoogvenster Configureren en schakelt u deze in.
Eén catalogus met schemaselectie inschakelen
Specifieke schema's kiezen in een catalogus:
Navigeer naar de catalogus en klik op het tabblad Details .
Klik naast Gegevensclassificatie op de knop Inschakelen .
Het dialoogvenster Gegevensclassificatie wordt weergegeven. Standaard zijn alle schema's opgenomen. Als u alleen bepaalde schema's wilt opnemen, selecteert u deze in de vervolgkeuzelijst Schema's om deze op te nemen . U kunt ook een gebruiksbeleid selecteren
Klik op Opslaan.
Hiermee maakt u een achtergrondtaak waarmee alle tabellen in de catalogus of geselecteerde schema's incrementeel worden gescand.
De classificatie-engine is afhankelijk van intelligente scans om te bepalen wanneer een tabel moet worden gescand. Nieuwe tabellen en kolommen in een catalogus worden doorgaans binnen 24 uur na het maken gescand.
Classificatieresultaten weergeven
Als u classificatieresultaten wilt weergeven, klikt u op Resultaten weergeven naast de instelling Gegevensclassificatie .
Hiermee opent u de gebruikersinterface voor gegevensclassificatie voor de catalogus. Voor het weergeven van classificatieresultaten is een serverloze SQL Warehouse vereist.
U kunt ook geaggregeerde resultaten weergeven voor alle geclassificeerde catalogi in de metastore met behulp van de cataloguskiezer linksboven. Kies Alle catalogi in de vervolgkeuzelijst.
Voor elk classificatietype wordt in de tabel het volgende weergegeven:
- Gedetecteerde kolommen: het aantal kolommen waar de classificatie is gedetecteerd.
- Automatisch taggen: de tagstatus voor die classificatie: actief of inactief. In de metastoreweergave geeft een status gedeeltelijk actief aan dat taggen is ingeschakeld in sommige, maar niet alle catalogi.
- Gebruikerstoegang (laatste 7d): het aantal afzonderlijke gebruikers dat niet-gemaskeerde versus gemaskeerde gegevens van die classificatie heeft geopend gedurende de afgelopen 7 dagen. Gebruik deze optie om de blootstelling van gevoelige gegevens in uw organisatie te beoordelen.
Detecties controleren
Als u de resultaten voor een specifiek classificatietype wilt bekijken, klikt u in de meest rechtse kolom op Controleren . Er wordt een deelvenster met twee tabbladen weergegeven:
- Gedetecteerde kolommen: geeft de kolommen weer waarin de classificatietag met hoge betrouwbaarheid is gedetecteerd, geordend door de meest recente detectie eerst. Bevat ook een detectiegrafiek in de loop van de tijd en een lijst met gedetecteerde kolommen met voorbeeldwaarden. Klik op een balk in de grafiek om de specifieke detecties voor die datum weer te geven. Voorbeeldwaarden worden alleen weergegeven als u over de vereiste machtigingen beschikt om classificatieresultaten weer te geven.
- Gebruikerstoegang: geeft een lijst weer van alle gebruikers die toegang hebben tot kolommen met deze classificatietag, met hun e-mailadres en gebruikersnaam, samen met of ze gemaskeerde of ontmaskerde toegang hebben. Toont ook eventuele ABAC-beleidsregels (op kenmerken gebaseerd toegangsbeheer) die zijn toegewezen aan deze classificatietag. Wanneer u resultaten voor één catalogus bekijkt, kunt u rechtstreeks vanuit het deelvenster een nieuw ABAC-beleid maken.
Als gedetecteerde kolommen onjuist zijn, kunt u rechts van de vermelding op het pictogram Uitsluiten klikken. Zie Detecties uitsluiten.
Automatische taggen inschakelen
Als de geïdentificeerde kolommen overeenkomen met uw verwachtingen, kunt u automatische tagging voor de classificatietag inschakelen. Wanneer automatisch taggen is ingeschakeld, worden alle bestaande en toekomstige detecties van deze classificatie gelabeld.
U kunt automatische tagging op twee niveaus configureren:
-
Metastore-niveau: alle catalogi tegelijk in- of uitschakelen. U moet een metastore-beheerder zijn en
ASSIGNrechten hebben op de tag die wordt toegepast. -
Catalogusniveau: alleen voor de huidige catalogus in- of uitschakelen. Instellingen op catalogusniveau hebben voorrang op de instelling op metastore-niveau. U moet
USE CATALOGenAPPLY TAGop de catalogus hebben, enASSIGNop de tag die wordt toegepast.
Op catalogusniveau heeft automatisch taggen drie statussen:
- Standaardinstelling (overgenomen): de catalogus neemt de tag-instelling over van het metastore-niveau.
- Actief: Taggen is expliciet ingeschakeld voor deze catalogus, ongeacht de instelling op metastoreniveau.
- Inactief: Taggen is expliciet uitgeschakeld voor deze catalogus, ongeacht de instelling op metastoreniveau.
Wanneer u taggen uitschakelt, worden er geen toekomstige tags toegepast, maar worden bestaande tags niet verwijderd.
Opmerking
Wanneer u automatische tagging inschakelt, worden tags niet onmiddellijk opnieuw ingevuld. Ze worden automatisch gevuld bij de volgende scan, die binnen 24 uur moet worden uitgevoerd. Volgende classificaties worden onmiddellijk gelabeld.
Detecties uitsluiten
Belangrijk
Detectieuitsluitingen en hun gebruik om de nauwkeurigheid van toekomstige classificaties te verbeteren, bevinden zich in bèta.
In het controlevenster kunt u afzonderlijke kolomdetecties uitsluiten. Een detectie uitsluiten:
- Hiermee verwijdert u alle bestaande classificatietags uit die kolom.
- Hiermee voorkomt u dat toekomstige scans de tag opnieuw toepassen op die kolom.
- Geeft feedback die de nauwkeurigheid van toekomstige classificatieresultaten verbetert.
Als u een detectie wilt uitsluiten, klikt u op het pictogram Uitsluiten voor de bijbehorende kolom in het revisievenster. Als u de detectie opnieuw wilt opnemen, klikt u nogmaals op het pictogram.
De resultatensysteemtabel
Gegevensclassificatie maakt een systeemtabel met de naam system.data_classification.results om resultaten op te slaan die standaard alleen toegankelijk zijn voor de accountbeheerder. De accountbeheerder kan deze tabel delen. De tabel is alleen toegankelijk wanneer u serverloze berekeningen gebruikt. Zie voor meer informatie over deze tabel de naslaginformatie over de tabel voor gegevensclassificatie.
Belangrijk
De resultatentabel system.data_classification.results bevat alle classificatieresultaten in de hele metastore en bevat voorbeeldwaarden uit tabellen in elke catalogus. U moet deze tabel alleen delen met gebruikers die bevoegd zijn om metastore-brede classificatieresultaten te zien, inclusief voorbeeldwaarden.
Gebruikers met SELECT toegang tot deze tabel kunnen ook voorbeeldwaarden zien die zijn gekoppeld aan detecties op de pagina Resultaten van gegevensclassificatie.
Beheersmaatregelen voor governance instellen op basis van resultaten van gegevensclassificatie
Gevoelige gegevens maskeren met een ABAC-beleid
Databricks raadt het gebruik van op kenmerken gebaseerd toegangsbeheer in Unity Catalog aan om beheerbesturingselementen te maken op basis van resultaten van gegevensclassificatie.
Als u een beleid wilt maken op de pagina Met resultaten voor gegevensclassificatie, klikt u op Controleren op een classificatietag, opent u het tabblad Gebruikerstoegang en klikt u op Nieuw beleid. Het beleidsformulier is vooraf ingevuld om kolommen met een te beoordelen classificatietag te maskeren. Als u de gegevens wilt maskeren, geeft u een maskeringsfunctie op die is geregistreerd in Unity Catalog en klikt u op Opslaan.
U kunt ook een beleid maken dat betrekking heeft op meerdere classificatietags door te wijzigen wanneer de kolomvoldoet aan de voorwaarde en meerdere tags op te geven.
Als u bijvoorbeeld een beleid wilt maken met de naam Vertrouwelijk, waarmee elke naam, e-mail of telefoonnummer wordt gemaskeerd, stelt u de voorwaarden in op .has_tag("class.name") OR has_tag("class.email_address") OR has_tag("class.phone_number")
AVG-detectie en -verwijdering
In dit voorbeeldnotebook ziet u hoe u gegevensclassificatie kunt gebruiken om te helpen bij het detecteren en verwijderen van gegevens voor AVG-naleving.
AVG-detectie en -verwijdering met behulp van een notebook voor gegevensclassificatie
Hoe om te gaan met onjuiste tags
Als een classificatie onjuist is, sluit u de detectie uit van het beoordelingsvenster. Als u een detectie uitsluit, wordt de tag verwijderd, wordt voorkomen dat deze opnieuw wordt toegepast en wordt de nauwkeurigheid van toekomstige scans verbeterd. Zie Detecties uitsluiten.
Scanfouten
Als er fouten optreden tijdens de scan, wordt rechtsboven in de resultatentabel een knop Fouten weergegeven.
Klik op de knop om de tabellen weer te geven waarvoor de scan en de bijbehorende foutberichten zijn mislukt.
Standaard worden fouten die zijn opgetreden voor afzonderlijke tabellen overgeslagen en de volgende dag opnieuw geprobeerd.
Uitgaven voor gegevensclassificatie weergeven
Als u wilt weten hoe gegevensclassificatie wordt gefactureerd, raadpleegt u de pagina met prijzen. U kunt uitgaven met betrekking tot gegevensclassificatie weergeven door een query uit te voeren of het gebruiksdashboard weer te geven.
Opmerking
De eerste scan is duurder dan latere scans in dezelfde catalogus, omdat deze scans incrementeel zijn en doorgaans lagere kosten in rekening worden gebracht.
Gebruik van de systeemtabel weergeven system.billing.usage
U kunt kosten voor gegevensclassificatie opvragen van system.billing.usage. De velden created_by en catalog_id kunnen eventueel worden gebruikt om de kosten op te splitsen:
-
created_by: Kies ervoor om de kosten te bekijken van de gebruiker die het gebruik heeft gestart. -
catalog_id: Inclusief om de kosten per catalogus te bekijken. De catalogus-id wordt weergegeven in desystem.data_classification.resultstabel.
Voorbeeldquery voor de afgelopen 30 dagen:
SELECT
usage_date,
identity_metadata.created_by,
usage_metadata.catalog_id,
SUM(usage_quantity) AS dbus
FROM
system.billing.usage
WHERE
usage_date >= DATE_SUB(CURRENT_DATE(), 30)
AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
usage_date,
created_by,
catalog_id
ORDER BY
usage_date DESC,
created_by;
Om de totale dollarkosten te berekenen, sluit u zich aan bij system.billing.list_prices. In de volgende voorbeeldquery wordt een benoemde parameter :add_on_rate gebruikt als een vermenigvuldiger voor de catalogusprijs. Stel deze in om 1 de catalogusprijs rechtstreeks te gebruiken of op een waarde kleiner dan 1 om een onderhandelde korting weer te geven (bijvoorbeeld 0.9 voor een korting van 10%).
Voorbeeldquery voor de totale kosten in dollars in de afgelopen 30 dagen.
SELECT
u.usage_date,
SUM(u.usage_quantity * lp.pricing.effective_list.default) * :add_on_rate
AS `Data Classification Dollar Cost`
FROM system.billing.usage AS u
JOIN system.billing.list_prices AS lp
ON lp.sku_name = u.sku_name
WHERE
u.billing_origin_product = 'DATA_CLASSIFICATION'
AND u.usage_end_time >= lp.price_start_time
AND (lp.price_end_time IS NULL OR u.usage_end_time < lp.price_end_time)
AND u.usage_date >= DATE_ADD(CURRENT_DATE(), -30)
GROUP BY
u.usage_date
ORDER BY
u.usage_date DESC;
Gebruik weergeven vanuit het gebruiksdashboard
Als u al een gebruiksdashboard hebt geconfigureerd in uw werkruimte, kunt u dit gebruiken om het gebruik te filteren door het Project factureringsoorsprong te selecteren met het label 'Gegevensclassificatie'. Als u geen gebruiksdashboard hebt geconfigureerd, kunt u er een importeren en dezelfde filters toepassen. Zie Gebruiksdashboards voor meer informatie.
Ondersteunde classificatietags
Zie Ondersteunde classificatietags voor een volledige lijst met ondersteunde tags die zijn georganiseerd door globale tags, regionale tags en nalevingsframeworks (PII, AVG, HIPAA, DPDPA).
Beperkingen
- Weergaven en metrische weergaven worden niet ondersteund. Als de weergave is gebaseerd op bestaande tabellen, raadt Databricks aan om de onderliggende tabellen te classificeren om te zien of ze gevoelige gegevens bevatten.