Dokumentbaserad PII-översikt

Document-baserad PII är en förhandsversionsfunktion i Azure AI-språk identifiering av personligt identifierbar information (PII). Det hjälper dig att identifiera och redigera känsliga data direkt i interna dokumentfiler, inklusive Microsoft Word- och PDF-filer, utan att skapa din egen textextrahering och rekonstruktionspipeline.

Den här funktionen använder ett asynkront API-arbetsflöde och returnerar redigerade utdata som bevarar dokumentstruktur och formatering. Du kan använda det när dokumentåtergivning är viktigt för efterlevnadsgranskning, delning, analys och underordnade AI-arbetsflöden.

Viktigt

Dokumentbaserad PII är för närvarande i förhandsversion och kan ändras innan allmän tillgänglighet (GA).

Översikt

Dokumentbaserad PII innehåller följande funktioner:

  • Intern dokumentredigering för .pdf, .docxoch .txt filer.
  • Bevarad layout i utdatadokument, inklusive teckensnitt, avstånd och färg.
  • Ett enda asynkront API-arbetsflöde för extrahering, identifiering och redigering.
  • Företagsklara utdata: ett redigerat dokument och ett strukturerat JSON-resultat.

Videodemonstration

I den här videon introducerar vi PII-identifieringstjänsten och visar hur den identifierar och redigerar känsliga data direkt från interna dokument samtidigt som filstrukturen och formateringen bevaras. Vi tar även upp vanliga användningsfall, format som stöds och hur du kommer igång med dokumentbaserad PII i Azure AI-språk:

Undertexter är tillgängliga för den här videon.

Varför ska du använda dokumentbaserad PII?

Många anpassade pipelines kräver flera steg för att extrahera text, identifiera och återskapa dokumentets utdata. Dokumentbaserad PII förenklar det här flödet med ett enda asynkront API-mönster och utdataartefakter som är utformade för dokumentbearbetningssystem.

Dokumentbaserad PII är särskilt användbar när du behöver:

  • Redigera PII i .pdf, .docxoch .txt filer.
  • Bevara dokumentlayouten för underordnade affärsprocesser.
  • Generera strukturerade JSON-utdata för granskning och integrering.

Dokumentbaserad PII använder samma fördefinierade PII-kategorier som text-PII, inklusive entiteter som adresser, telefonnummer och kreditkortsnummer.

Vad den returnerar

När ett jobb lyckas får du:

  • Ett maskerat dokument i din målbehållare för lagring.
  • En JSON-resultatfil med identifierade entiteter, kategorier, konfidenspoäng och bearbetning av metadata.

Så här fungerar det

Dokumentbaserad PII använder ett asynkront arbetsflöde:

  1. Skicka ett jobb med käll- och mållagringsplatser.
  2. Kontrollera jobbets status genom att använda driftplatsen.
  3. Hämta utdataartefakter från mållagringsplatsen.

Diagram som visar det asynkrona arbetsflödet för dokumentbaserad PII-identifiering.

Information om implementering och exempelbegäran finns i Identifiera och redigera personligt identifierbar information i interna dokument.

Hur den skiljer sig från andra PII-funktionstyper

Alla PII-funktionstyper använder fördefinierade entitetskategorier, men de optimerar för olika indatatyper:

  • Dokumentbaserad PII är optimerad för arbetsflöden för redigering av ursprungsfiler och noggrannhet i filutdata.
  • Text-PII är optimerad för direkt strängbaserad indata och appintegrering.
  • Konversations-PII är optimerad för turbaserade och transkriptionsorienterade konversationsindata.

Vanliga användningsfall

Dokumentbaserad PII är utformad för arbetsflöden för företag och reglerade branscher där team behöver anonymisera filer före lagring, analys, extern delning eller nedströms AI-bearbetning.

Vanliga exempel är:

  • Domstolshandlingar och juridisk dokumentation.
  • Myndighetsformulär och interna arkivhandlingar.
  • Finansiella dokument.
  • Interna arbetsflöden för företagsdokumentation.

Format och begränsningar som stöds

Dokumentbaserad PII accepterar interna filformat direkt, utan att kräva förbearbetning av text. I följande tabell visas de format som stöds:

Filtyp Filnamnstillägg Beskrivning
Text .txt Ett oformaterat textdokument.
Adobe PDF .pdf Ett portabelt dokumentfilformaterat dokument.
Microsoft Word .docx En Microsoft Word-dokumentfil.

Följande indatabegränsningar gäller:

Attribut Gräns
Totalt antal dokument per begäran <= 20
Total innehållsstorlek per begäran <= 10 MB

Följande innehållstyper stöds inte:

Typ Begränsning
Fullständigt skannade PDF-filer Stöds inte.
Bilder med inbäddad text Digitala bilder med inbäddad text stöds inte.
Tabeller i skannade dokument Stöds inte.

Se språkstöd och kvoter och begränsningar för aktuell språktäckning och tjänstgränsinformation.

Prissättning

Dokumentbaserad PII-avskrift använder Azure AI-språk prismodell. Aktuell prisinformation finns på sidan Azure AI-språk priser.

Nästa steg

Använd följande referenser för att fortsätta implementeringen: