Vue d’ensemble des informations personnelles basées sur des documents

Informations d’identification personnelle basées sur des documents est une fonctionnalité d’aperçu dans la détection d’informations d’identification personnelle (PII) d'Azure AI Language. Il vous aide à détecter et à modifier des données sensibles directement dans des fichiers de documents natifs, notamment des fichiers Microsoft Word et PDF, sans générer votre propre pipeline d’extraction de texte et de reconstruction.

Cette fonctionnalité utilise un flux de travail d’API asynchrone et retourne une sortie régérée qui conserve la structure et la mise en forme du document. Vous pouvez l’utiliser lorsque la fidélité du document est importante pour la révision de conformité, le partage, l’analytique et les flux de travail d’IA en aval.

Important

Les informations personnelles basées sur des documents sont actuellement en aperçu et peuvent changer avant la disponibilité générale (DG).

En un clin d’œil

Les informations d’identification personnelle basées sur des documents fournissent les fonctionnalités suivantes :

  • Rédaction de document native pour .pdf, .docx et .txt fichiers.
  • Disposition conservée dans les documents de sortie, y compris la police, l’espacement et la couleur.
  • Flux de travail d'API asynchrone unique pour l'extraction, la détection et la rédaction.
  • Sorties prêtes pour l’entreprise : document expurgé et résultat JSON structuré.

Démonstration vidéo

Dans cette vidéo, nous présentons le service de détection des informations personnelles et vous montrons comment il détecte et réacte les données sensibles directement à partir de documents natifs tout en préservant la structure et la mise en forme des fichiers. Nous abordons également les cas d’usage courants, les formats pris en charge et la prise en main des informations personnelles basées sur des documents dans Azure AI Language :

Les sous-titres sont disponibles pour cette vidéo.

Pourquoi utiliser des informations personnelles basées sur des documents ?

De nombreux pipelines personnalisés nécessitent plusieurs étapes pour extraire du texte, exécuter la détection et reconstruire la sortie du document. Les informations personnelles basées sur des documents simplifient ce flux avec un seul modèle d’API asynchrone et des artefacts de sortie conçus pour les systèmes de traitement de documents.

Les informations personnelles basées sur des documents sont particulièrement utiles lorsque vous devez :

  • Rédigez les informations personnelles dans les fichiers .pdf, .docx et .txt.
  • Conservez la disposition des documents pour les processus métier en aval.
  • Générez une sortie JSON structurée pour l’audit et l’intégration.

Les informations personnelles basées sur des documents utilisent les mêmes catégories d’informations personnelles prédéfinies que les informations personnelles textuelles, notamment les entités telles que les adresses, les numéros de téléphone et les numéros de carte de crédit.

Ce qu’il retourne

Lorsqu’un travail réussit, vous recevez :

  • Un document masqué dans votre conteneur de stockage cible.
  • Fichier de résultats JSON avec des entités détectées, des catégories, des scores de confiance et des métadonnées de traitement.

Fonctionnement

Les informations personnelles basées sur des documents utilisent un flux de travail asynchrone :

  1. Envoyez une tâche avec des emplacements de stockage source et cible.
  2. Interrogez l’état du travail à l’aide de l’emplacement de l’opération.
  3. Récupérez les artefacts de sortie à partir de votre emplacement de stockage cible.

Diagramme montrant le flux de travail asynchrone pour la détection d’informations personnelles basées sur des documents.

Pour plus d’informations sur l’implémentation et des exemples de demandes, consultez Détecter et réactez les informations d’identification personnelle dans les documents natifs.

Différences entre les autres types de fonctionnalités d’identification personnelle

Tous les types de fonctionnalités PII utilisent des catégories d’entités prédéfinies, mais ils optimisent pour différents types d’entrée :

  • Le PII basé sur des documents est optimisé pour les flux de travail de rédaction sur fichiers natifs et la fidélité de sortie des fichiers.
  • Les PII de texte sont optimisées pour les entrées directes basées sur des chaînes et l’intégration aux applications.
  • Les PII de conversation sont optimisées pour les entrées conversationnelles structurées par tours et orientées transcription.

Cas d’usage courants

Les informations personnelles basées sur des documents sont conçues pour les flux de travail d’entreprise et de secteur réglementé où les équipes doivent anonymiser les fichiers avant le stockage, l’analytique, le partage externe ou le traitement IA en aval.

Voici quelques exemples typiques :

  • Documents judiciaires et documentation juridique.
  • Formulaires gouvernementaux et dossiers internes.
  • Documents financiers.
  • Flux de travail de documentation d’entreprise interne.

Formats et limites pris en charge

Les informations personnelles basées sur un document acceptent directement les formats de fichiers natifs, sans nécessiter de prétraitement de texte. Le tableau suivant répertorie les formats pris en charge :

Type de fichier Extension de fichier Description
Texte .txt Document texte non mis en forme.
Adobe PDF .pdf Document portable mis en forme.
Microsoft Word .docx Fichier de document Microsoft Word.

Les contraintes d’entrée suivantes s’appliquent :

Attribut Limite
Nombre total de documents par demande <= 20
Taille totale du contenu par requête <= 10 Mo

Les types de contenu suivants ne sont pas pris en charge :

Type Limitation
Fichiers PDF entièrement numérisés Non pris en charge.
Images avec du texte incorporé Les images numériques avec du texte incorporé ne sont pas prises en charge.
Tableaux dans des documents numérisés Non pris en charge.

Consultez la prise en charge linguistique et les quotas et limites pour les détails de la couverture linguistique actuelle et des limites de service.

Prix

La suppression des informations personnelles basées sur des documents utilise la tarification Azure AI Language. Pour plus d’informations sur la tarification actuelle, consultez Azure AI Language tarification.

Étapes suivantes

Utilisez les références suivantes pour poursuivre l’implémentation :