Overzicht van documentgebaseerde PII

Op documenten gebaseerde PII is een preview-functie in Azure AI Taal PII-detectie (Personally Identifiable Information). Het helpt u gevoelige gegevens rechtstreeks in systeemeigen documentbestanden te detecteren en te redigen, inclusief Microsoft Word- en PDF-bestanden, zonder uw eigen tekstextractie- en reconstructiepijplijn te bouwen.

Deze functie maakt gebruik van een asynchrone API-werkstroom en retourneert redacted uitvoer die documentstructuur en -opmaak behoudt. U kunt deze gebruiken wanneer documentkwaliteit belangrijk is voor nalevingsbeoordeling, delen, analyses en downstream AI-werkstromen.

Belangrijk

PII op basis van documenten is momenteel in preview en kan veranderen voordat het algemeen beschikbaar is.

In één oogopslag

PiI op basis van documenten biedt de volgende mogelijkheden:

  • Systeemeigen documentredactie voor .pdf, .docxen .txt bestanden.
  • Behouden indeling in uitvoerdocumenten, inclusief lettertype, afstand en kleur.
  • Eén asynchrone API-werkstroom voor extractie, detectie en redaction.
  • Uitvoer die gereed is voor ondernemingen: een redacted document en een gestructureerd JSON-resultaat.

Videodemonstratie

In deze video introduceren we de PII-detectieservice en laten we u zien hoe gevoelige gegevens rechtstreeks vanuit systeemeigen documenten worden gedetecteerd en bewerkt, terwijl de bestandsstructuur en opmaak behouden blijven. We behandelen ook veelvoorkomende use cases, ondersteunde indelingen en hoe u aan de slag kunt met piI op basis van documenten in Azure AI Taal:

Er zijn ondertiteling beschikbaar voor deze video.

Waarom op documenten gebaseerde PII gebruiken?

Veel aangepaste pijplijnen vereisen meerdere stappen voor het extraheren van tekst, het uitvoeren van detectie en het reconstrueren van documentuitvoer. Op documenten gebaseerde PII vereenvoudigt deze stroom met één asynchroon API-patroon en uitvoerartefacten die zijn ontworpen voor documentverwerkingssystemen.

PiI op basis van documenten is vooral handig wanneer u het volgende moet doen:

  • Redact PII in .pdf, .docx en .txt bestanden.
  • Documentindeling behouden voor downstream bedrijfsprocessen.
  • Genereer gestructureerde JSON-uitvoer voor controle en integratie.

Op documenten gebaseerde PII maakt gebruik van dezelfde vooraf gedefinieerde PII-categorieën als tekst-PII, inclusief entiteiten zoals adressen, telefoonnummers en creditcardnummers.

Wat het teruggeeft

Wanneer een taak slaagt, ontvangt u het volgende:

  • Een geredigeerd document in uw doelopslagcontainer.
  • Een JSON-resultaatbestand met gedetecteerde entiteiten, categorieën, betrouwbaarheidsscores en verwerking van metagegevens.

Hoe het werkt

Op documenten gebaseerde PII maakt gebruik van een asynchrone werkstroom:

  1. Verzend een taak met bron- en doelopslaglocaties.
  2. Peil de taakstatus met behulp van de bewerkingslocatie.
  3. Uitvoerartefacten ophalen uit uw doelopslaglocatie.

Diagram met de asynchrone werkstroom voor op documenten gebaseerde PII-detectie.

Zie Persoonsgegevens detecteren en redacteren in systeemeigen documenten voor implementatiedetails en voorbeelden van aanvragen.

Hoe deze verschilt van andere piI-functietypen

Alle PII-functietypen maken gebruik van vooraf gedefinieerde entiteitscategorieën, maar ze optimaliseren voor verschillende invoertypen:

  • PiI op basis van documenten is geoptimaliseerd voor werkstromen voor systeemeigen bestanden en kwaliteit van bestandsuitvoer.
  • Tekst-PII is geoptimaliseerd voor directe invoer en app-integratie op basis van tekenreeksen.
  • Gespreks-PII is geoptimaliseerd voor op beurten gebaseerde en transcript-georiënteerde gespreksinvoer.

Veelvoorkomende gebruiksvoorbeelden

Op documenten gebaseerde PII is ontworpen voor werkstromen voor ondernemingen en gereglementeerde bedrijfstaken, waarbij teams bestanden moeten anoniem maken voordat ze worden opgeslagen, geanalyseerd, extern delen of downstream AI-verwerking.

Typische voorbeelden zijn:

  • Rechtbankdossiers en juridische documentatie.
  • Overheidsformulieren en interne records.
  • Financiële documenten.
  • Interne werkstromen voor bedrijfsdocumentatie.

Ondersteunde indelingen en limieten

Op documenten gebaseerde PII accepteert systeemeigen bestandsindelingen rechtstreeks, zonder dat tekst vooraf hoeft te worden verwerkt. De volgende tabel bevat de ondersteunde indelingen:

Bestandstype Bestandsextensie Beschrijving
Tekst .txt Een niet-opgemaakt tekstdocument.
Adobe PDF .pdf Een document met een draagbare documentindeling.
Microsoft Word .docx Een Microsoft Word-documentbestand.

De volgende invoerbeperkingen zijn van toepassing:

Kenmerk Limiet
Totaal aantal documenten per aanvraag <= 20
Totale inhoudsgrootte per aanvraag <= 10 MB

De volgende inhoudstypen worden niet ondersteund:

Type Beperking
Volledig gescande PDF-bestanden Niet ondersteund.
Afbeeldingen met ingesloten tekst Digitale afbeeldingen met ingesloten tekst worden niet ondersteund.
Tabellen in gescande documenten Niet ondersteund.

Zie taalondersteuning en quota en limieten voor de huidige taaldekking en servicelimietdetails.

Prijzen

Documentgebaseerde PII-redaction maakt gebruik van de Azure AI Taal prijsstelling. Zie Azure AI Taal prijzen voor actuele prijsinformatie.

Volgende stappen

Gebruik de volgende verwijzingen om door te gaan met de implementatie: