Dataklassificering

På den här sidan beskrivs hur du använder Databricks-dataklassificering i Unity Catalog för att automatiskt klassificera och tagga känsliga data i katalogen.

Datakataloger kan ha en stor mängd data, som ofta innehåller kända och okända känsliga data. Det är viktigt för datateam att förstå vilken typ av känsliga data som finns i varje tabell så att de både kan styra och demokratisera åtkomsten till dessa data.

För att lösa det här problemet använder Databricks Data Classification en AI-agent för att automatiskt klassificera och tagga tabeller i katalogen. På så sätt kan du identifiera känsliga data och tillämpa styrningskontroller över resultaten med hjälp av verktyg som attributbaserad åtkomstkontroll i Unity Catalog. En lista över taggar som stöds finns i Klassificeringstaggar som stöds.

Med den här funktionen kan du:

  • Klassificera data: Motorn använder ett agentiskt AI-system för att automatiskt klassificera och tagga tabeller i Unity Catalog.
  • Optimera kostnaden genom intelligent genomsökning: Systemet avgör på ett intelligent sätt när du ska skanna dina data genom att använda Unity Catalog och Data Intelligence Engine. Det innebär att genomsökningen är inkrementell och optimerad för att säkerställa att alla nya data klassificeras utan manuell konfiguration.
  • Granska och skydda känsliga data: Resultatvisningen hjälper dig att visa klassificeringsresultat och skydda känsliga data genom att tagga och skapa principer för åtkomstkontroll för varje klass.

Viktigt!

Databricks-dataklassificering använder standardlagring för att lagra klassificeringsresultat. Du debiteras inte för lagringen.

Databricks-dataklassificering använder en stor språkmodell (LLM) för att hjälpa till med klassificering.

Kravspecifikation

Anmärkning

Dataklassificering är en förhandsversionsfunktion på arbetsytan och kan endast hanteras av en arbetsyta eller kontoadministratör. Anvisningar finns i Hantera Azure Databricks förhandsversioner.

  • Din arbetsyta måste ha serverlös beräkning tillgänglig (aktiverad som standard i arbetsytor med Unity Catalog).
  • Om du vill aktivera dataklassificering måste du äga katalogen eller ha USE CATALOG och MANAGE behörigheter för den.
  • Om du vill aktivera automatisk taggning för en katalog måste du ha USE CATALOG i katalogen, APPLY TAG i katalogen och ASSIGN på taggen som tillämpas.
  • Om du vill visa klassificeringsresultat i användargränssnittet måste du ha USE CATALOG eller MANAGE (SELECT + USE SCHEMA) i katalogen. Om du vill se exempelvärden som är associerade med identifieringar måste du ha SELECT i resultatsystemtabellen.

Anmärkning

Som standard är det bara kontoadministratörer som har MANAGE och ASSIGN behörigheter för dataklassificeringssystemets reglerade taggar. Kontoadministratörer kan bevilja MANAGE och ASSIGN till andra användare, tjänsthuvudmän eller grupper för enskilda styrda taggar. Se Hantera behörigheter för reglerade taggar.

Använda dataklassificering

Du kan aktivera dataklassificering för flera kataloger samtidigt från resultatsidan eller konfigurera enskilda kataloger med mer detaljerad kontroll på schemanivå.

Aktivera flera kataloger

  1. På sidan Dataklassificeringsresultat klickar du på Konfigurera.
  2. Välj de kataloger som du vill aktivera eller välj alla tillgängliga kataloger på arbetsytan.
  3. Klicka på Aktivera.

Om du aktiverar alla tillgängliga kataloger aktiveras inte framtida kataloger automatiskt. Om du vill klassificera en ny katalog går du tillbaka till dialogrutan Konfigurera och aktiverar den.

Aktivera en enskild katalog med schemaval

Så här väljer du specifika scheman i en katalog:

  1. Gå till katalogen och klicka på fliken Information .

    Informationsfliken för katalogsidan i Katalogutforskaren.

  2. Klicka på knappen Aktivera bredvid Dataklassificering.

  3. Dialogrutan Dataklassificering visas. Som standard ingår alla scheman. Om du bara vill inkludera vissa scheman väljer du dem i listrutan Scheman för att inkludera dem. Du kan också välja en användningsprincip

    Inställningsmodal för dataklassificering.

  4. Klicka på Spara.

Detta skapar ett bakgrundsjobb som inkrementellt söker igenom alla tabeller i katalogen eller valda scheman.

Klassificeringsmotorn förlitar sig på intelligent genomsökning för att avgöra när en tabell ska genomsökas. Nya tabeller och kolumner i en katalog genomsöks vanligtvis inom 24 timmar efter att de har skapats.

Visa klassificeringsresultat

Om du vill visa klassificeringsresultat klickar du på Visa resultat bredvid inställningen Dataklassificering .

Knappen Visa resultat för Dataklassificering.

Då öppnas användargränssnittet för dataklassificering för katalogen. Om du vill visa klassificeringsresultat krävs ett serverlöst SQL-lager.

Du kan också visa aggregerade resultat i alla klassificerade kataloger i metaarkivet med hjälp av katalogväljaren längst upp till vänster. Välj Alla kataloger i den nedrullningsbara menyn.

För varje klassificeringstyp visar tabellen:

  • Identifierade kolumner: Antalet kolumner där klassificeringen identifierades.
  • Automatisk taggning: Taggningsstatus för den klassificeringen – Aktiv eller Inaktiv. I metaarkivvyn anger statusen Delvis aktiv att taggning är aktiverat i vissa men inte alla kataloger.
  • Användaråtkomst (senaste 7d): Antalet distinkta användare som har använt omaskerade eller maskerade data för den klassificeringen under de senaste 7 dagarna. Använd detta för att utvärdera exponeringen av känsliga data i hela organisationen.

Resultatsida som visar tabell med identifierade klasser.

Granska identifieringar

Om du vill granska resultatet för en specifik klassificeringstyp klickar du på Granska i kolumnen längst till höger. En panel visas med två flikar:

  • Identifierade kolumner: Visar de kolumner där klassificeringstaggen upptäcktes med hög konfidens, sorterad efter den senaste identifieringen först. Innehåller även ett identifieringsdiagram över tid och en lista över identifierade kolumner med exempelvärden. Klicka på valfri stapel i diagrammet för att se de specifika detekteringarna för det datumet. Exempelvärden visas endast om du har de behörigheter som krävs för att visa klassificeringsresultat.
  • Användaråtkomst: Visar en lista över alla användare som har åtkomst till kolumner med den här klassificeringstaggen och visar deras e-post och användarnamn samt om de har maskerad eller omaskerad åtkomst. Visar även eventuella attributbaserade åtkomstkontrollprinciper (ABAC) som tilldelats den här klassificeringstaggen. När du visar resultat för en enskild katalog kan du skapa en ny ABAC-princip direkt från panelen.

Resultat som visar kolumner med identifierade klassificeringar.

Om några identifierade kolumner är felaktiga kan du klicka på ikonen Exkludera till höger om posten. Se Exkludera detekteringar.

Aktivera automatisk taggning

Om de identifierade kolumnerna matchar dina förväntningar kan du aktivera automatisk taggning för klassificeringstaggen. När automatisk taggning är aktiverad taggas alla befintliga och framtida identifieringar av den här klassificeringen.

Du kan konfigurera automatisk taggning på två nivåer:

  • Metastore-nivå: Aktivera eller inaktivera alla kataloger på en gång. Du måste vara administratör för metaarkivet och ha ASSIGN på taggen som tillämpas.
  • Katalognivå: Aktivera eller inaktivera endast för den aktuella katalogen. Inställningar på katalognivå har företräde framför inställningen på metaarkivnivå. Du måste ha USE CATALOG och APPLY TAG i katalogen och ASSIGN på taggen som tillämpas.

På katalognivå har automatisk taggning tre tillstånd:

  • Standard (ärvd): Katalogen ärver taggningsinställningen från metaarkivnivån.
  • Aktiv: Taggning är uttryckligen aktiverat för den här katalogen, oavsett inställningen på metaarkivnivå.
  • Inaktiv: Taggning är uttryckligen inaktiverat för den här katalogen, oavsett inställningen på metaarkivnivå.

När du inaktiverar taggning tillämpas inga framtida taggar, men befintliga taggar tas inte bort.

Anmärkning

När du aktiverar automatisk taggning återfylls inte taggarna omedelbart. De fylls i i nästa genomsökning, som ska träda i kraft inom 24 timmar. Efterföljande klassificeringar kommer att taggas omedelbart.

Exkludera detekteringar

Viktigt!

Identifieringsundantag och deras användning för att förbättra den framtida klassificeringsprecisionen finns i Beta.

I granskningspanelen kan du exkludera enskilda kolumnidentifieringar. Exkludering av en detektering

  • Tar bort alla befintliga klassificeringstaggar från den kolumnen.
  • Förhindrar framtida genomsökningar från att tillämpa taggen på den kolumnen igen.
  • Ger feedback som förbättrar noggrannheten för framtida klassificeringsresultat.

Om du vill undanta en identifiering klickar du på ikonen Exkludera för motsvarande kolumn i granskningspanelen. Om du vill inkludera identifieringen igen klickar du på ikonen igen.

Exkludera en enskild kolumn från identifiering.

Resultatsystemtabellen

Dataklassificering skapar en systemtabell med namnet system.data_classification.results för att lagra resultat som som standard endast är tillgängliga för kontoadministratören. Kontoadministratören kan dela den här tabellen. Tabellen är endast tillgänglig när du använder serverlös beräkning. Mer information om den här tabellen finns i Tabellreferens för dataklassificeringssystem.

Viktigt!

Resultattabellen system.data_classification.results innehåller alla klassificeringsresultat i hela metaarkivet och innehåller exempelvärden från tabeller i varje katalog. Du bör bara dela den här tabellen med användare som har behörighet att se metaarkivomfattande klassificeringsresultat, inklusive exempelvärden.

Användare med SELECT åtkomst till den här tabellen kan också se exempelvärden som är associerade med identifieringar på sidan Dataklassificeringsresultat.

Konfigurera styrningskontroller baserat på dataklassificeringsresultat

Maskera känsliga data med en ABAC-princip

Databricks rekommenderar att du använder attributbaserad åtkomstkontroll i Unity Catalog för att skapa styrningskontroller baserat på dataklassificeringsresultat.

Om du vill skapa en princip från resultatsidan för dataklassificering klickar du på Granska för en klassificeringstagg, öppnar fliken Användaråtkomst och klickar på Ny princip. Policydokumentet är förfyllt som ett sätt att maskera kolumner med klassificeringstaggen som granskas. Om du vill maskera data anger du alla maskeringsfunktioner som registrerats i Unity Catalog och klickar på Spara.

Du kan också skapa en princip som omfattar flera klassificeringstaggar genom att ändra när kolumnenuppfyller villkoret och tillhandahålla flera taggar.

Om du till exempel vill skapa en princip med namnet "Konfidentiellt" som maskerar namn, e-post eller telefonnummer anger du villkoret uppfyller till has_tag("class.name") OR has_tag("class.email_address") OR has_tag("class.phone_number").

GDPR-upptäckt och borttagning

Den här exempelanteckningsboken visar hur du kan använda dataklassificering för att hjälpa till med dataidentifiering och borttagning för GDPR-efterlevnad.

GDPR-upptäckning och borttagning med hjälp av dataklassificeringsnotebook

Hämta anteckningsbok

Hantera felaktiga taggar

Om en klassificering är felaktig, ska du undanta detekteringen från granskningspanelen. Om du undantar en identifiering tas taggen bort, den kan inte tillämpas igen och precisionen för framtida genomsökningar förbättras. Se Exkludera detekteringar.

Genomsökningsfel

Om det uppstår fel under genomsökningen visas knappen Fel längst upp till höger i resultattabellen.

Resultatsida med knappen Fel längst upp till höger i tabellen.

Klicka på knappen för att visa tabellerna som misslyckades med genomsökningen och tillhörande felmeddelanden.

Dataklassificeringstabellgenomsökningsfel.

Som standardinställning hoppar fel som inträffar för enskilda tabeller över och försök igen nästa dag.

Visa kostnader för dataklassificering

Information om hur dataklassificering faktureras finns på prissidan. Du kan visa utgifter relaterade till dataklassificering antingen genom att köra en fråga eller visa instrumentpanelen för användning.

Anmärkning

Den inledande genomsökningen är dyrare än efterföljande genomsökningar i samma katalog, eftersom dessa genomsökningar är inkrementella och vanligtvis medför lägre kostnader.

Visa användning från systemtabellen system.billing.usage

Du kan göra sökningar på dataklassificeringskostnader från system.billing.usage. Fälten created_by och catalog_id kan användas valfritt för att dela upp kostnader:

  • created_by: Inkludera för att se kostnader för den användare som utlöste användningen.
  • catalog_id: Inkludera för att se kostnader per katalog. Katalog-ID:t visas i system.data_classification.results tabellen.

Exempelfråga för de senaste 30 dagarna:

SELECT
   usage_date,
   identity_metadata.created_by,
   usage_metadata.catalog_id,
   SUM(usage_quantity) AS dbus
FROM
   system.billing.usage
WHERE
   usage_date >= DATE_SUB(CURRENT_DATE(), 30)
  AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
   usage_date,
   created_by,
   catalog_id
ORDER BY
   usage_date DESC,
   created_by;

Om du vill beräkna den totala dollarkostnaden ansluter du till system.billing.list_prices. I följande exempelfråga används en namngiven parameter :add_on_rate som multiplikator i listpriset. Ange det till 1 att använda listpriset direkt eller till ett värde som är mindre än 1 för att återspegla en förhandlad rabatt (till exempel 0.9 för en rabatt på 10%).

Exempelfråga för total dollarkostnad under de senaste 30 dagarna:

SELECT
  u.usage_date,
  SUM(u.usage_quantity * lp.pricing.effective_list.default) * :add_on_rate
    AS `Data Classification Dollar Cost`
FROM system.billing.usage AS u
JOIN system.billing.list_prices AS lp
  ON lp.sku_name = u.sku_name
WHERE
  u.billing_origin_product = 'DATA_CLASSIFICATION'
  AND u.usage_end_time >= lp.price_start_time
  AND (lp.price_end_time IS NULL OR u.usage_end_time < lp.price_end_time)
  AND u.usage_date >= DATE_ADD(CURRENT_DATE(), -30)
GROUP BY
  u.usage_date
ORDER BY
  u.usage_date DESC;

Visa användning från användningsinstrumentpanelen

Om du redan har konfigurerat en användningsdashboard på din arbetsyta kan du använda den för att filtrera användningen genom att välja det faktureringsprojekt som är märkt med "Dataklassificering". Om du inte har konfigurerat en instrumentpanel för användning kan du importera en och tillämpa samma filtrering. Mer information finns i Användningsinstrumentpaneler.

Klassificeringstaggar som stöds

En fullständig lista över taggar som stöds ordnade efter globala taggar, regionala taggar och efterlevnadsramverk (PII, GDPR, HIPAA, DPDPA) finns i Klassificeringstaggar som stöds.

Begränsningar

  • Vyer och metriska vyer stöds inte. Om vyn baseras på befintliga tabeller rekommenderar Databricks att du klassificerar de underliggande tabellerna för att se om de innehåller känsliga data.