Note sulla trasparenza e casi d'uso per Document Intelligence

Importante

Le traduzioni non in inglese sono disponibili solo per praticità. Consultare la EN-US versione di questo documento per la versione definitiva.

Che cos'è una nota sulla trasparenza?

Un sistema di intelligenza artificiale include non solo la tecnologia, ma anche le persone che lo useranno, le persone che ne saranno interessate e l'ambiente in cui viene distribuito. La creazione di un sistema adatto allo scopo previsto richiede una comprensione del funzionamento della tecnologia, delle sue capacità e limitazioni e di come ottenere le migliori prestazioni.

Microsoft fornisce note transparency per comprendere il funzionamento della tecnologia di intelligenza artificiale. Ciò include le scelte che i proprietari del sistema possono fare che influenzano le prestazioni e il comportamento del sistema, e l'importanza di pensare all'intero sistema, tra cui la tecnologia, le persone e l'ambiente. È possibile usare le note sulla trasparenza durante lo sviluppo o la distribuzione del proprio sistema o condividerle con le persone che useranno o saranno interessate dal sistema.

Le note sulla trasparenza fanno parte di un impegno più ampio in Microsoft per mettere in pratica i principi di IA. Per altre informazioni, vedere Microsoft principi di intelligenza artificiale.

Nozioni di base sull'intelligence sui documenti

Introduzione

L'accesso a Document Intelligence viene eseguito tramite un set di API e consente agli sviluppatori di estrarre facilmente testo, struttura e campi dai documenti. È composto da funzionalità come:

Lettura per l'estrazione di testo.
Layout e documenti generali per approfondimenti strutturali e valori chiave ed entità generali, come nomi, luoghi e cose.
Modelli predefiniti per tipi di documenti specifici, ad esempio fatture, ricevute, biglietti da visita, W2s e ID.
Modelli personalizzati per la creazione di modelli specifici per i tipi di documento.

Document Intelligence supporta una o più lingue e impostazioni locali per ognuna delle funzionalità, come indicato nell'articolo Lingue supportate .

Termini chiave

Termine	Definizione
Leggere	Questa funzionalità estrae righe di testo, parole e posizioni da immagini e documenti, insieme ad altre informazioni, ad esempio le lingue rilevate.
Layout	Questa funzionalità estrae testo, segni di selezione e struttura della tabella (i numeri di riga e colonna associati al testo). Consulta Document Intelligence Layout.
Documenti generali	Analizzare i documenti e associare valori a chiavi e voci alle tabelle individuate. Per ulteriori informazioni, vedere Document Intelligence General Documents.
Modelli predefiniti	I modelli predefiniti sono modelli specifici del documento per tipi di modulo univoci. Questi modelli non richiedono il training personalizzato prima dell'uso. Ad esempio, il modello di fattura predefinito estrae i campi chiave dalle fatture. Per altre informazioni, vedere Modello di fattura predefinito di Document Intelligence.
Modelli personalizzati	Intelligence per i documenti consente di eseguire il training di un modello personalizzato su misura per i tuoi moduli e documenti. Questo modello estrae testo, coppie chiave-valore, segni di selezione e dati di tabella. I modelli personalizzati possono essere migliorati con il feedback umano applicando la revisione umana, aggiornando le etichette e ripetendo il training del modello usando l'API.
Valore di attendibilità	Tutte le operazioni Get Analysis Results restituiscono valori di attendibilità nell'intervallo compreso tra 0 e 1 per tutte le parole estratte e i mapping chiave-valore. Questo valore rappresenta la stima del servizio del numero di volte in cui estrae correttamente la parola da 100 o esegue correttamente il mapping delle coppie chiave-valore. Ad esempio, una parola che viene stimata per essere estratta correttamente 82% del tempo restituisce un valore di confidenza pari a 0,82.
Funzionalità dei componenti aggiuntivi	Document Intelligence offre un set di funzionalità aggiuntive per estendere i risultati in modo da includere più elementi dai documenti. Alcune funzionalità del componente aggiuntivo comportano un costo aggiuntivo e possono essere abilitate e disabilitate a seconda dello scenario di estrazione dei documenti. Attualmente offriamo funzionalità di estrazione ad alta risoluzione, formula, styleFont, codici a barre, linguaggi, keyValuePairs e queryFields. Per altre informazioni, vedere Funzionalità dei componenti aggiuntivi di Document Intelligence.

Funzionalità

Comportamento del sistema

Azure Document Intelligence in Foundry Tools è uno strumento foundry basato sul cloud creato usando il riconoscimento ottico dei caratteri (OCR), Analisi del testo e testo personalizzato di Foundry Tools. I modelli personalizzati attualmente utilizzano il modello GPT-3.5 del servizio Azure OpenAI. OCR viene usato per estrarre il carattere tipografico e i documenti di testo scritti a mano. Document Intelligence usa OCR per rilevare ed estrarre informazioni dai moduli e dai documenti supportati dall'intelligenza artificiale per fornire più struttura e informazioni all'estrazione del testo.

Casi d'uso

Usi previsti

Document Intelligence include funzionalità che consentono ai clienti di vari settori di estrarre dati dai documenti. Gli scenari seguenti sono esempi di casi d'uso appropriati:

Conti pagabili: Un'azienda può aumentare l'efficienza dei suoi addetti ai conti pagabili utilizzando il modello di fattura predefinito e moduli personalizzati per velocizzare l'immissione dei dati delle fatture con l'intervento umano. Il modello di fattura predefinito può estrarre campi chiave, ad esempio Il totale fattura e l'indirizzo di spedizione.
Trattamento dei moduli assicurativi: Un cliente può eseguire il training di un modello usando moduli personalizzati per estrarre una coppia chiave-valore nei moduli assicurativi e quindi inviare i dati al proprio flusso aziendale per migliorare l'accuratezza e l'efficienza del processo. Per i moduli univoci, i clienti possono creare un modello personalizzato che estrae i valori delle chiavi usando moduli personalizzati. Questi valori estratti diventano quindi dati interattivi per vari flussi di lavoro all'interno dell'azienda.
Elaborazione moduli bancari: Una banca può usare il modello ID predefinito e i moduli personalizzati per velocizzare l'immissione dei dati per la documentazione "conosci il cliente" o per velocizzare l'immissione dei dati per un pacchetto ipotecario. Se una banca richiede ai clienti di inviare l'identificazione personale come parte di un processo, il modello ID predefinito può estrarre i valori chiave, ad esempio Nome e Numero documento, accelerando il tempo complessivo per l'immissione dei dati.
Automazione del processo robotico (RPA): Usando il modello di estrazione personalizzato, i clienti possono estrarre dati specifici necessari da vari tipi di documenti. La coppia chiave-valore estratta può quindi essere immessa in vari sistemi, ad esempio database o sistemi CRM, tramite RPA, sostituendo l'immissione manuale dei dati. I clienti possono anche usare un modello di classificazione personalizzato per classificare i documenti in base al contenuto e archiviarli nella posizione corretta. Di conseguenza, un set organizzato di dati estratti dal modello personalizzato può essere un primo passaggio essenziale per documentare scenari RPA per le aziende che gestiscono regolarmente grandi volumi di documenti.

Considerazioni per la scelta di altri casi d'uso

Quando si sceglie un caso d'uso, considerare i fattori seguenti:

Valutare attentamente l'applicazione di una revisione umana quando sono coinvolti dati o scenari sensibili: è importante includere un essere umano nel ciclo per una revisione manuale quando si gestiscono scenari ad alto rischio (ad esempio, che influiscono sui diritti consequenziali di un utente) o dati sensibili. I modelli di Machine Learning non sono perfetti. Valutare attentamente quando includere un passaggio di revisione manuale per determinati flussi di lavoro. Ad esempio, la verifica dell'identità in un porto di ingresso, ad esempio gli aeroporti, deve includere la supervisione umana.
Valutare attentamente quando si usa per l'assegnazione o la negazione dei vantaggi: l'intelligenza doc non è stata progettata o valutata per il premio o la negazione dei vantaggi e l'uso in questi scenari può avere conseguenze impreviste. Questi scenari includono:
- Assicurazione medica: ciò includerebbe l'uso di cartelle cliniche e prescrizioni mediche come base per le decisioni relative alla ricompensa assicurativa o al rifiuto.
- Approvazioni dei prestiti: queste includono le richieste di nuovi prestiti o il rifinanziamento di quelle esistenti.
Considerare attentamente i tipi di documento e le impostazioni locali supportati: i modelli predefiniti hanno un elenco predefinito di campi supportati e vengono compilati per impostazioni locali specifiche. Assicurarsi di controllare attentamente le impostazioni locali e i tipi di documento supportati ufficialmente per garantire i risultati migliori. Ad esempio, vedere località predefinite di ricevute di Document Intelligence.
Considerazioni legali e normative: le organizzazioni devono valutare potenziali obblighi legali e normativi specifici quando si usano strumenti e soluzioni Foundry, che potrebbero non essere appropriati per l'uso in ogni settore o scenario. Inoltre, gli strumenti o le soluzioni Foundry non sono progettati per e non possono essere usati in modi vietati in termini di servizio applicabili e codici di comportamento pertinenti.

Limitazioni

Limitazioni tecniche, fattori operativi e intervalli

Limitazioni del modello predefinite

I modelli predefiniti di Document Intelligence vengono usati per l'elaborazione di tipi di documenti specifici e vengono sottoposti a training preliminare su migliaia di moduli. Questa funzionalità consente agli sviluppatori di iniziare e ottenere risultati entro pochi minuti, senza dati di training o etichettatura necessari. Per i modelli predefiniti, è importante prendere nota dell'elenco dei requisiti di input, dei tipi di documento supportati e delle impostazioni locali per ogni modello predefinito per ottenere risultati ottimali. Ad esempio, fare riferimento ai requisiti predefiniti di input della fattura.

Limitazioni del modello personalizzato

I modelli personalizzati di Document Intelligence vengono sottoposti a training usando i tuoi dati di addestramento affinché il modello possa essere addestrato sui tuoi moduli e documenti specifici. Questa funzionalità dipende in larga misura dal modo in cui si etichettano i dati, nonché dal tipo di set di dati di training fornito. Per i modelli personalizzati, è importante prendere nota dei limiti delle dimensioni del set di dati di training, dei limiti della pagina del documento e del numero minimo di campioni necessari per ogni tipo di documento. I modelli personalizzati attualmente usano il modello GPT-3.5 di Servizio Azure OpenAI. Altre informazioni sui modelli OpenAI Azure sono disponibili nella Azure OpenAI Transparency Note.

La pagina Limiti del servizio contiene altre informazioni sulle quote e i limiti del servizio Document Intelligence per tutti i piani tariffari. Contiene anche le limitazioni del modello e le procedure consigliate per l'utilizzo del modello, nonché per evitare il throttling delle richieste.

Supporto delle funzionalità

Vedere la tabella Delle funzionalità di analisi per un elenco delle diverse operazioni che possono essere eseguite dai modelli di Intelligence per documenti.

Prestazioni del sistema

Precisione

Il testo è composto da righe e parole a livello di base e entità, ad esempio nomi, prezzi, importi, nomi di società e prodotti a livello di comprensione dei documenti.

accuratezza a livello di parola

Una misura comune di accuratezza per OCR è la frequenza degli errori delle parole (WER) o il numero di parole restituite erroneamente nei risultati estratti. Minore è il valore di WER, maggiore è l'accuratezza.

WeR è definito come:

Illustrazione che mostra una definizione WER.

Dove:

Termine	Definizione	Esempio
S	Numero di parole non corrette ("sostituite") nell'output.	"Velvet" viene estratto come "Veivet" perché "l" viene riconosciuta come "i".
D	Numero di parole mancanti ("eliminate") nell'output.	Per il testo "Nome società: Microsoft", Microsoft non viene estratto perché è scritto a mano o difficile da leggere.
Io	Numero di parole inesistenti ("inserite") nell'output.	"Department" viene segmentato in modo errato in tre parole come "Dep artm ent". In questo caso, il risultato è una parola eliminata e tre parole inserite.
C	Numero di parole estratte correttamente nell'output.	Tutte le parole estratte correttamente.
N	Numero di parole totali nel riferimento (N=S+D+C) escluse I perché queste parole mancavano dal riferimento originale e venivano stimate erroneamente come presenti.	Si consideri un'immagine con la frase "Microsoft, con sede a Redmond, WA ha annunciato un nuovo prodotto denominato Velvet per reparti finanziari". Si supponga che l'output OCR sia " , con sede a Redmond, WA ha annunciato un nuovo prodotto denominato Veivet for finance dep artm ents". In questo caso, S (Velvet) = 1, D (Microsoft) = 1, I (dep artm ents) = 3, C (11) e N = S + D + C = 13. Pertanto, WER = (S + D + I) / N = 5 / 13 = 0,38 o 38% (su 100).

Uso di un valore di attendibilità

Come illustrato in una sezione precedente, il servizio fornisce un valore di attendibilità per ogni parola stimata nell'output OCR. I clienti usano questo valore per calibrare le soglie personalizzate per i loro contenuti e contesti, al fine di indirizzare il contenuto verso l'elaborazione automatica o l'inoltro al processo con l'intervento umano. Le misurazioni risultanti determinano l'accuratezza specifica dello scenario.

Le implicazioni delle prestazioni del sistema OCR possono variare in base agli scenari in cui viene applicata la tecnologia OCR. Verranno esaminati alcuni esempi per illustrare tale concetto.

Conformità dei dispositivi medici: in questo primo esempio, una multinazionale farmaceutica con un portfolio diversificato di brevetti, dispositivi, farmaci e trattamenti deve analizzare i documenti sui risultati dell'etichetta e dei risultati dell'analisi conformi alla FDA. L'azienda potrebbe preferire una soglia bassa di attendibilità per l'integrazione dell'intervento umano nel processo poiché il costo di dati estratti erroneamente può avere un impatto significativo per i consumatori e le multe delle agenzie normative.
Elaborazione di immagini e documenti: in questo secondo esempio, una società esegue l'elaborazione dell'applicazione di assicurazione e prestito. Il cliente che usa OCR potrebbe preferire una soglia di valore di attendibilità media perché l'estrazione automatica del testo viene combinata a valle con altri input di informazioni e passaggi del ciclo umano-in-the-loop per una revisione olistica delle applicazioni.
Moderazione del contenuto: per un volume elevato di dati del catalogo di e-commerce importati da fornitori su larga scala, il cliente potrebbe preferire una soglia di attendibilità elevata con accuratezza elevata, perché anche una piccola percentuale di contenuti contrassegnati in modo falso può generare un notevole sovraccarico per i team di revisione e i fornitori umani.

Accuratezza a livello di documento ed entità

A livello di documento, ad esempio, nel caso di una fattura o di una ricevuta, un errore di un solo carattere nell'intero documento potrebbe essere valutato insignificante. Tuttavia, se l'errore si trova nel testo che rappresenta l'importo pagato, l'intera fattura o ricevuta potrebbe essere contrassegnata come errata.

Un'altra metrica utile è la frequenza degli errori di entità (EER). È la percentuale di entità estratte in modo non corretto, ad esempio nomi, prezzi, importi e numeri di telefono, al di fuori del numero totale delle entità corrispondenti in uno o più documenti. Ad esempio, per un totale di 30 parole che rappresentano 10 nomi, 2 parole non corrette su 30 sono uguali a 0,06 (6%) WER. Tuttavia, se ciò comporta 2 nomi su 10 non corretti, il Name EER è 0,20 (20%), che è molto più alto del WER.

La misurazione di WER ed EER è un'attività utile per ottenere una prospettiva completa sull'accuratezza della comprensione dei documenti.

Procedure consigliate per migliorare le prestazioni del sistema

Considerare i punti seguenti relativi alle limitazioni e alle prestazioni:

Il servizio supporta immagini e documenti. Per i limiti consentiti per il numero di pagine, dimensioni delle immagini, formati di carta e dimensioni dei file, vedere Informazioni su Intelligence sui documenti.

Molte variabili possono influire sull'accuratezza dei risultati OCR da cui dipende Intelligence per i documenti. Queste variabili includono qualità dell'analisi dei documenti, risoluzione, contrasto, condizioni di luce, rotazione e attributi di testo, ad esempio dimensioni, colore e densità. Ad esempio, è consigliabile che l'immagine sia almeno 50 x 50 pixel. Consultare le specifiche del prodotto e testare il servizio sui propri documenti per confermare l'idoneità per la vostra situazione specifica.
Si notino le limitazioni di ogni servizio per quanto riguarda gli input, le lingue e le impostazioni locali attualmente supportati e i tipi di documento. Ad esempio, fare riferimento alle lingue supportate per il layout.

Procedure consigliate per migliorare la qualità del modello personalizzato

Quando si utilizza il modello personalizzato di Document Intelligence, si forniscono i propri dati di training in modo che il modello possa essere addestrato ai tuoi moduli e documenti specifici. L'elenco seguente usa il tipo di modello di modulo personalizzato per condividere i suggerimenti di avvio per migliorare la qualità del modello.

Per i moduli compilati, usare esempi con tutti i campi compilati.
Usare moduli con valori reali che si prevede di visualizzare per ogni campo.
Se le immagini del modulo hanno una qualità inferiore, usare un set di dati più grande (ad esempio, almeno 10-15 immagini).

Per una guida completa e i requisiti di input, vedere Creare un set di dati di training per un modello personalizzato.

Valutazione dell'intelligence sui documenti

Le prestazioni di Document Intelligence variano a seconda delle soluzioni reali per le quali viene implementata. Per garantire prestazioni ottimali nei propri scenari, i clienti devono eseguire valutazioni personalizzate. Il servizio fornisce un valore di attendibilità compreso nell'intervallo compreso tra 0 e 1 per ogni parola estratta e il mapping chiave-valore. I clienti devono eseguire un progetto pilota o un modello di verifica che rappresenta il proprio caso d'uso per comprendere l'intervallo di valori di attendibilità e la qualità di estrazione da Document Intelligence. Possono quindi stimare le soglie del valore di confidenza per i risultati da inviare per l'elaborazione diretta (STP) o esaminate da un essere umano. Ad esempio, il cliente potrebbe inviare risultati con valori di confidenza maggiori o uguali a 80 per l'elaborazione diretta e applicare la revisione umana ai risultati con valori di confidenza inferiori a 80.

Valutazione e integrazione di Document Intelligence per il tuo utilizzo

Microsoft vuole aiutarti a sviluppare e distribuire in modo responsabile soluzioni che usano Document Intelligence. Stiamo adottando un approccio di principio per sostenere l'agenzia personale e la dignità considerando l'equità, l'affidabilità e la sicurezza dei sistemi di IA, la privacy e la sicurezza, l'inclusione, la trasparenza e la responsabilità umana. Queste considerazioni sono in linea con il nostro impegno nello sviluppo dell'IA responsabile.

Quando ci si prepara a distribuire prodotti o funzionalità alimentati da intelligenza artificiale, le seguenti attività aiutano a predisporre le condizioni per il successo.

Comprendere le operazioni che può eseguire: Valutare completamente il potenziale dell'intelligence sui documenti per comprendere le funzionalità e le limitazioni. Comprendere come si comporterà nel tuo scenario e contesto particolare. Ad esempio, se si usa il modello di fattura predefinito, testare con fatture reali dei processi aziendali per analizzare e confrontare i risultati con le metriche dei processi esistenti.
Rispettare il diritto di un individuo alla privacy: Raccoglie solo dati e informazioni da persone per scopi legittimi e giustificabili. Usa solo i dati e le informazioni per cui hai il consenso di utilizzare per questo scopo.
Revisione legale: Ottenere una revisione legale appropriata, in particolare se si prevede di usarla in applicazioni sensibili o ad alto rischio. Comprendi le restrizioni con cui potresti dover lavorare e la tua responsabilità di risolvere eventuali problemi che potrebbero verificarsi in futuro.
Human-in-the-loop: Mantenere un essere umano nel ciclo e includere la supervisione umana come area di modello coerente da esplorare. Ciò significa garantire una costante supervisione umana del prodotto o della funzionalità basata sull'IA e mantenere il ruolo degli esseri umani nel processo decisionale. Assicurarsi di avere un intervento umano in tempo reale nella soluzione per evitare danni. Integrare un essere umano nel processo consente di gestire le situazioni in cui l'intelligenza dei documenti non funziona come previsto.
Sicurezza: Assicurarsi che la soluzione sia sicura e che disponga di controlli adeguati per mantenere l'integrità del contenuto e impedire l'accesso non autorizzato.

Suggerimenti per mantenere la privacy

Un approccio di successo alla privacy fornisce agli individui informazioni e offre controlli e protezione per preservare la loro privacy.

Se Document Intelligence fa parte di una soluzione progettata per incorporare informazioni personali (PII), valutare attentamente se e come registrare tali dati. Seguire le normative nazionali e regionali applicabili sulla privacy e sui dati sensibili.
I responsabili della privacy devono considerare i criteri di conservazione per il testo e i valori estratti e i documenti o le immagini sottostanti di tali documenti. I criteri di conservazione saranno associati all'uso previsto di ogni applicazione.