Panoramica delle informazioni personali basate su documenti

Le informazioni personali basate su documenti sono una funzionalità di anteprima nel rilevamento delle informazioni personali di Lingua di Azure AI. Consente di rilevare e redigire i dati sensibili direttamente nei file di documento nativi, inclusi i file Microsoft Word e PDF, senza creare la propria pipeline di estrazione e ricostruzione del testo.

Questa funzionalità usa un flusso di lavoro API asincrono e restituisce un output redatto che mantiene la struttura e la formattazione dei documenti. È possibile usarlo quando la fedeltà dei documenti è importante per la revisione della conformità, la condivisione, l'analisi e i flussi di lavoro di intelligenza artificiale downstream.

Importante

Le informazioni personali basate su documenti sono attualmente in anteprima e possono cambiare prima della disponibilità generale (GA).

A colpo d'occhio

Le informazioni personali basate su documenti offrono le funzionalità seguenti:

  • Redazione nativa dei documenti per i file .pdf, .docx e .txt.
  • Layout mantenuto nei documenti di output, tra cui carattere, spaziatura e colore.
  • Un singolo flusso di lavoro API asincrono per redazione, rilevamento ed estrazione.
  • Output pronti per l'organizzazione: un documento redatto e un risultato JSON strutturato.

Dimostrazione video

In questo video viene presentato il servizio di rilevamento delle informazioni personali e viene illustrato come vengono rilevati e corretti i dati sensibili direttamente dai documenti nativi mantenendo al tempo stesso la struttura e la formattazione dei file. Vengono inoltre illustrati i casi d'uso comuni, i formati supportati e come iniziare a usare le informazioni personali basate su documenti in Lingua di Azure AI:

I sottotitoli sono disponibili per questo video.

Perché usare informazioni personali basate su documenti?

Molte pipeline personalizzate richiedono più passaggi per estrarre testo, eseguire il rilevamento e ricostruire l'output del documento. Le informazioni personali basate su documenti semplificano questo flusso con un unico modello API asincrono e artefatti di output progettati per i sistemi di elaborazione dei documenti.

Le informazioni personali basate su documenti sono particolarmente utili quando è necessario:

  • Redigere i PII nei file .pdf, .docx e .txt.
  • Mantenere il layout del documento per i processi aziendali downstream.
  • Generare un output JSON strutturato per il controllo e l'integrazione.

Le informazioni personali basate su documenti usano le stesse categorie di informazioni personali predefinite come informazioni personali di testo, incluse entità come indirizzi, numeri di telefono e numeri di carta di credito.

Cosa restituisce

Quando un processo ha esito positivo, si riceve quanto segue:

  • Documento redatto nel contenitore di archiviazione di destinazione.
  • Un file di risultati JSON con entità, categorie, punteggi di attendibilità ed elaborazione dei metadati rilevati.

Come funziona

PII (Informazioni personali identificabili) basate su documenti usano un flusso di lavoro asincrono:

  1. Inviare un job con posizioni di archiviazione sorgente e destinazione.
  2. Eseguire il polling dello stato del processo utilizzando l'ubicazione dell'operazione.
  3. Recupera gli artefatti di output dal percorso di archiviazione di destinazione.

Diagramma che mostra il flusso di lavoro asincrono per il rilevamento delle informazioni personali basate su documenti.

Per informazioni dettagliate sull'implementazione e degli esempi di richieste, vedere Rilevare e oscurare Informazioni personalmente identificabili in documenti nativi.

Differenze rispetto ad altri tipi di funzionalità di informazioni personali

Tutti i tipi di funzionalità PII usano categorie di entità predefinite, ma ottimizzano per tipi di input diversi:

  • Le PII basate su documenti sono ottimizzate per i flussi di lavoro di redazione dei file nativi e la fedeltà dell'output del file.
  • Le informazioni personali identificabili nel testo sono ottimizzate per input diretto basato su stringhe e l'integrazione delle app.
  • Le informazioni personali della conversazione sono ottimizzate per l'input conversazionale basato su turni e orientato alla trascrizione.

Casi d'uso comuni

Le informazioni personali basate su documenti sono progettate per i flussi di lavoro aziendali e regolamentati del settore, in cui i team devono rendere anonimi i file prima dell'archiviazione, dell'analisi, della condivisione esterna o dell'elaborazione downstream dell'IA.

Gli esempi tipici includono:

  • Archivi giudiziari e documenti legali.
  • Moduli governativi e record interni.
  • Documenti finanziari.
  • Flussi di lavoro interni della documentazione aziendale.

Formati e limiti supportati

Le informazioni personali identificabili basate su documenti accettano direttamente i formati di file nativi, senza richiedere la pre-elaborazione del testo. Nella tabella seguente sono elencati i formati supportati:

Tipo di file Estensione del file Descrizione
Testo .txt Documento di testo non formattato.
Adobe PDF .pdf Documento formattato con file di documento portabile.
Microsoft Word .docx File di documento Microsoft Word.

Si applicano i vincoli di input seguenti:

Attributo Limite
Totale documenti per richiesta <= 20
Dimensioni totali del contenuto per richiesta <= 10 MB

I tipi di contenuto seguenti non sono supportati:

Digitare Limitazione
PDF completamente scansiti Non supportato.
Immagini con testo incorporato Le immagini digitali con testo incorporato non sono supportate.
Tabelle nei documenti analizzati Non supportato.

Per informazioni dettagliate sulla copertura linguistica corrente e sui limiti di servizio, vedere supporto linguistico e quote e limiti.

Tariffe

La redazione dei dati personali su base documentale utilizza le tariffe di Lingua di Azure AI. Per vedere le informazioni sui prezzi correnti, consultare Lingua di Azure AI pricing.

Passaggi successivi

Usare i riferimenti seguenti per continuare l'implementazione: