Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Document-baserad PII är en förhandsversionsfunktion i Azure AI-språk identifiering av personligt identifierbar information (PII). Det hjälper dig att identifiera och redigera känsliga data direkt i interna dokumentfiler, inklusive Microsoft Word- och PDF-filer, utan att skapa din egen textextrahering och rekonstruktionspipeline.
Den här funktionen använder ett asynkront API-arbetsflöde och returnerar redigerade utdata som bevarar dokumentstruktur och formatering. Du kan använda det när dokumentåtergivning är viktigt för efterlevnadsgranskning, delning, analys och underordnade AI-arbetsflöden.
Viktigt
Dokumentbaserad PII är för närvarande i förhandsversion och kan ändras innan allmän tillgänglighet (GA).
Översikt
Dokumentbaserad PII innehåller följande funktioner:
- Intern dokumentredigering för
.pdf,.docxoch.txtfiler. - Bevarad layout i utdatadokument, inklusive teckensnitt, avstånd och färg.
- Ett enda asynkront API-arbetsflöde för extrahering, identifiering och redigering.
- Företagsklara utdata: ett redigerat dokument och ett strukturerat JSON-resultat.
Videodemonstration
I den här videon introducerar vi PII-identifieringstjänsten och visar hur den identifierar och redigerar känsliga data direkt från interna dokument samtidigt som filstrukturen och formateringen bevaras. Vi tar även upp vanliga användningsfall, format som stöds och hur du kommer igång med dokumentbaserad PII i Azure AI-språk:
Undertexter är tillgängliga för den här videon.
Varför ska du använda dokumentbaserad PII?
Många anpassade pipelines kräver flera steg för att extrahera text, identifiera och återskapa dokumentets utdata. Dokumentbaserad PII förenklar det här flödet med ett enda asynkront API-mönster och utdataartefakter som är utformade för dokumentbearbetningssystem.
Dokumentbaserad PII är särskilt användbar när du behöver:
- Redigera PII i
.pdf,.docxoch.txtfiler. - Bevara dokumentlayouten för underordnade affärsprocesser.
- Generera strukturerade JSON-utdata för granskning och integrering.
Dokumentbaserad PII använder samma fördefinierade PII-kategorier som text-PII, inklusive entiteter som adresser, telefonnummer och kreditkortsnummer.
Vad den returnerar
När ett jobb lyckas får du:
- Ett maskerat dokument i din målbehållare för lagring.
- En JSON-resultatfil med identifierade entiteter, kategorier, konfidenspoäng och bearbetning av metadata.
Så här fungerar det
Dokumentbaserad PII använder ett asynkront arbetsflöde:
- Skicka ett jobb med käll- och mållagringsplatser.
- Kontrollera jobbets status genom att använda driftplatsen.
- Hämta utdataartefakter från mållagringsplatsen.
Information om implementering och exempelbegäran finns i Identifiera och redigera personligt identifierbar information i interna dokument.
Hur den skiljer sig från andra PII-funktionstyper
Alla PII-funktionstyper använder fördefinierade entitetskategorier, men de optimerar för olika indatatyper:
- Dokumentbaserad PII är optimerad för arbetsflöden för redigering av ursprungsfiler och noggrannhet i filutdata.
- Text-PII är optimerad för direkt strängbaserad indata och appintegrering.
- Konversations-PII är optimerad för turbaserade och transkriptionsorienterade konversationsindata.
Vanliga användningsfall
Dokumentbaserad PII är utformad för arbetsflöden för företag och reglerade branscher där team behöver anonymisera filer före lagring, analys, extern delning eller nedströms AI-bearbetning.
Vanliga exempel är:
- Domstolshandlingar och juridisk dokumentation.
- Myndighetsformulär och interna arkivhandlingar.
- Finansiella dokument.
- Interna arbetsflöden för företagsdokumentation.
Format och begränsningar som stöds
Dokumentbaserad PII accepterar interna filformat direkt, utan att kräva förbearbetning av text. I följande tabell visas de format som stöds:
| Filtyp | Filnamnstillägg | Beskrivning |
|---|---|---|
| Text | .txt |
Ett oformaterat textdokument. |
| Adobe PDF | .pdf |
Ett portabelt dokumentfilformaterat dokument. |
| Microsoft Word | .docx |
En Microsoft Word-dokumentfil. |
Följande indatabegränsningar gäller:
| Attribut | Gräns |
|---|---|
| Totalt antal dokument per begäran | <= 20 |
| Total innehållsstorlek per begäran | <= 10 MB |
Följande innehållstyper stöds inte:
| Typ | Begränsning |
|---|---|
| Fullständigt skannade PDF-filer | Stöds inte. |
| Bilder med inbäddad text | Digitala bilder med inbäddad text stöds inte. |
| Tabeller i skannade dokument | Stöds inte. |
Se språkstöd och kvoter och begränsningar för aktuell språktäckning och tjänstgränsinformation.
Prissättning
Dokumentbaserad PII-avskrift använder Azure AI-språk prismodell. Aktuell prisinformation finns på sidan Azure AI-språk priser.
Nästa steg
Använd följande referenser för att fortsätta implementeringen: