Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Op documenten gebaseerde PII is een preview-functie in Azure AI Taal PII-detectie (Personally Identifiable Information). Het helpt u gevoelige gegevens rechtstreeks in systeemeigen documentbestanden te detecteren en te redigen, inclusief Microsoft Word- en PDF-bestanden, zonder uw eigen tekstextractie- en reconstructiepijplijn te bouwen.
Deze functie maakt gebruik van een asynchrone API-werkstroom en retourneert redacted uitvoer die documentstructuur en -opmaak behoudt. U kunt deze gebruiken wanneer documentkwaliteit belangrijk is voor nalevingsbeoordeling, delen, analyses en downstream AI-werkstromen.
Belangrijk
PII op basis van documenten is momenteel in preview en kan veranderen voordat het algemeen beschikbaar is.
In één oogopslag
PiI op basis van documenten biedt de volgende mogelijkheden:
- Systeemeigen documentredactie voor
.pdf,.docxen.txtbestanden. - Behouden indeling in uitvoerdocumenten, inclusief lettertype, afstand en kleur.
- Eén asynchrone API-werkstroom voor extractie, detectie en redaction.
- Uitvoer die gereed is voor ondernemingen: een redacted document en een gestructureerd JSON-resultaat.
Videodemonstratie
In deze video introduceren we de PII-detectieservice en laten we u zien hoe gevoelige gegevens rechtstreeks vanuit systeemeigen documenten worden gedetecteerd en bewerkt, terwijl de bestandsstructuur en opmaak behouden blijven. We behandelen ook veelvoorkomende use cases, ondersteunde indelingen en hoe u aan de slag kunt met piI op basis van documenten in Azure AI Taal:
Er zijn ondertiteling beschikbaar voor deze video.
Waarom op documenten gebaseerde PII gebruiken?
Veel aangepaste pijplijnen vereisen meerdere stappen voor het extraheren van tekst, het uitvoeren van detectie en het reconstrueren van documentuitvoer. Op documenten gebaseerde PII vereenvoudigt deze stroom met één asynchroon API-patroon en uitvoerartefacten die zijn ontworpen voor documentverwerkingssystemen.
PiI op basis van documenten is vooral handig wanneer u het volgende moet doen:
- Redact PII in
.pdf,.docxen.txtbestanden. - Documentindeling behouden voor downstream bedrijfsprocessen.
- Genereer gestructureerde JSON-uitvoer voor controle en integratie.
Op documenten gebaseerde PII maakt gebruik van dezelfde vooraf gedefinieerde PII-categorieën als tekst-PII, inclusief entiteiten zoals adressen, telefoonnummers en creditcardnummers.
Wat het teruggeeft
Wanneer een taak slaagt, ontvangt u het volgende:
- Een geredigeerd document in uw doelopslagcontainer.
- Een JSON-resultaatbestand met gedetecteerde entiteiten, categorieën, betrouwbaarheidsscores en verwerking van metagegevens.
Hoe het werkt
Op documenten gebaseerde PII maakt gebruik van een asynchrone werkstroom:
- Verzend een taak met bron- en doelopslaglocaties.
- Peil de taakstatus met behulp van de bewerkingslocatie.
- Uitvoerartefacten ophalen uit uw doelopslaglocatie.
Zie Persoonsgegevens detecteren en redacteren in systeemeigen documenten voor implementatiedetails en voorbeelden van aanvragen.
Hoe deze verschilt van andere piI-functietypen
Alle PII-functietypen maken gebruik van vooraf gedefinieerde entiteitscategorieën, maar ze optimaliseren voor verschillende invoertypen:
- PiI op basis van documenten is geoptimaliseerd voor werkstromen voor systeemeigen bestanden en kwaliteit van bestandsuitvoer.
- Tekst-PII is geoptimaliseerd voor directe invoer en app-integratie op basis van tekenreeksen.
- Gespreks-PII is geoptimaliseerd voor op beurten gebaseerde en transcript-georiënteerde gespreksinvoer.
Veelvoorkomende gebruiksvoorbeelden
Op documenten gebaseerde PII is ontworpen voor werkstromen voor ondernemingen en gereglementeerde bedrijfstaken, waarbij teams bestanden moeten anoniem maken voordat ze worden opgeslagen, geanalyseerd, extern delen of downstream AI-verwerking.
Typische voorbeelden zijn:
- Rechtbankdossiers en juridische documentatie.
- Overheidsformulieren en interne records.
- Financiële documenten.
- Interne werkstromen voor bedrijfsdocumentatie.
Ondersteunde indelingen en limieten
Op documenten gebaseerde PII accepteert systeemeigen bestandsindelingen rechtstreeks, zonder dat tekst vooraf hoeft te worden verwerkt. De volgende tabel bevat de ondersteunde indelingen:
| Bestandstype | Bestandsextensie | Beschrijving |
|---|---|---|
| Tekst | .txt |
Een niet-opgemaakt tekstdocument. |
| Adobe PDF | .pdf |
Een document met een draagbare documentindeling. |
| Microsoft Word | .docx |
Een Microsoft Word-documentbestand. |
De volgende invoerbeperkingen zijn van toepassing:
| Kenmerk | Limiet |
|---|---|
| Totaal aantal documenten per aanvraag | <= 20 |
| Totale inhoudsgrootte per aanvraag | <= 10 MB |
De volgende inhoudstypen worden niet ondersteund:
| Type | Beperking |
|---|---|
| Volledig gescande PDF-bestanden | Niet ondersteund. |
| Afbeeldingen met ingesloten tekst | Digitale afbeeldingen met ingesloten tekst worden niet ondersteund. |
| Tabellen in gescande documenten | Niet ondersteund. |
Zie taalondersteuning en quota en limieten voor de huidige taaldekking en servicelimietdetails.
Prijzen
Documentgebaseerde PII-redaction maakt gebruik van de Azure AI Taal prijsstelling. Zie Azure AI Taal prijzen voor actuele prijsinformatie.
Volgende stappen
Gebruik de volgende verwijzingen om door te gaan met de implementatie: