Note sulla trasparenza e casi d'uso per il riconoscimento ottico dei caratteri

Importante

Le traduzioni non in inglese sono disponibili solo per praticità. Consultare la EN-US versione di questo documento per la versione definitiva.

Questo articolo fornisce informazioni sui casi d'uso per il riconoscimento ottico dei caratteri (OCR).

Che cos'è una nota sulla trasparenza?

Un sistema di intelligenza artificiale include non solo la tecnologia, ma anche le persone che lo useranno, le persone che ne saranno interessate e l'ambiente in cui viene distribuito. La creazione di un sistema adatto allo scopo previsto richiede una comprensione del funzionamento della tecnologia, delle sue capacità e limitazioni e di come ottenere le migliori prestazioni.

Microsoft fornisce note transparency per comprendere il funzionamento della tecnologia di intelligenza artificiale. Ciò include le scelte che i proprietari del sistema possono fare che influenzano le prestazioni e il comportamento del sistema, e l'importanza di pensare all'intero sistema, tra cui la tecnologia, le persone e l'ambiente. È possibile usare le note sulla trasparenza durante lo sviluppo o la distribuzione del proprio sistema o condividerle con le persone che useranno o saranno interessate dal sistema.

Le note sulla trasparenza fanno parte di un impegno più ampio in Microsoft per mettere in pratica i principi di IA. Per altre informazioni, vedere Microsoft principi di intelligenza artificiale.

Introduzione al riconoscimento ottico dei caratteri (OCR)

Le aziende oggi spesso devono convertire testo da immagini, documenti cartacei digitalizzati e file digitali in informazioni dettagliate interattive. Queste informazioni dettagliate sono utili per il knowledge mining, l'automazione dei processi aziendali e l'accessibilità del contenuto per tutti. Il riconoscimento ottico dei caratteri (OCR) è un servizio di intelligenza artificiale usato per estrarre testo da contenuto visivo, ad esempio immagini e documenti. OCR supporta attualmente diverse lingue per l'estrazione del testo di stampa (vedere lingue supportate da OCR). OCR scritto a mano è attualmente supportato esclusivamente per l'inglese.

Nozioni di base su OCR

La tecnologia OCR di Microsoft viene offerta tramite l'API lettura Azure Vision in Foundry Tools. I clienti chiamano il Read API con il loro contenuto per ottenere il testo estratto e la posizione del testo estratto, oltre ad altre informazioni dettagliate, in un formato di testo leggibile da macchina. Elaborano l'output all'interno delle applicazioni aziendali per implementare l'intelligence sui contenuti, l'automazione dei processi aziendali e altri scenari per gli utenti.

Termine	Definizione
Asincrona	Asincrona significa che il servizio non restituisce immediatamente il testo estratto. Il processo viene invece avviato in background. L'applicazione del cliente dovrà eseguire il checkback in un secondo momento per ottenere il testo estratto.
Leggere	L'operazione di lettura è una chiamata asincrona che accetta immagini e documenti per avviare l'analisi e l'estrazione del testo, che viene restituita tramite un'altra chiamata.
Recuperare i risultati della lettura	Mentre il processo di analisi ed estrazione è attivo, l'operazione Get Read Results restituisce lo stato di avanzamento. Al termine del processo, l'operazione Get Read Results restituisce il testo estratto (sotto forma di parole e righe di testo) e i valori di attendibilità.
Valore di attendibilità	L'operazione Get Read Results restituisce valori di attendibilità nell'intervallo compreso tra 0 e 1 per tutte le parole estratte. Questo valore rappresenta la stima del servizio del numero di volte in cui estrae correttamente la parola da 100. Ad esempio, una parola che viene stimata per essere estratta correttamente 82% del tempo comporterà un valore di confidenza pari a 0,82.

Casi d'uso di esempio

I casi d'uso seguenti sono esempi comuni per la tecnologia OCR.

Ricerca e archiviazione di immagini e documenti: documenti non strutturati come contratti legali, documenti tecnici e contenuti di notizie contengono informazioni dettagliate e metadati non disponibili per processi quali l'assegnazione automatica di tag, la categorizzazione e la ricerca. OCR consente al testo di questi documenti di essere leggibile dal computer per l'analisi, la ricerca e il recupero.
Moderazione e localizzazione dei contenuti di immagini: aziende di e-commerce, editori di contenuti generati dall'utente e community online di giochi e social media devono moderare le immagini per essere conformi alle normative di sicurezza online. In alcuni casi, devono anche localizzare il contenuto per i destinatari internazionali. OCR consente di estrarre testo dalle immagini per applicare l'elaborazione downstream.
Automazione dei processi aziendali: l'automazione dei processi aziendali richiede l'integrazione di dati e preferenze immessi dall'utente in documenti e schermate dell'applicazione con processi aziendali complessi. OCR sblocca il testo incorporato in documenti e immagini e lo rende disponibile per l'uso nei passaggi dei flussi di lavoro aziendali.
Elaborazione di documenti finanziari e sanitari: se usato nell'elaborazione back-office di moduli di applicazione finanziaria e assicurativa, OCR consente di risparmiare tempo e impegno nell'elaborazione dei documenti. Analogamente, il OCR applicato ai rimborsi delle richieste mediche e ai moduli di informazione medica accelera i rimborsi e la qualificazione per servizi e benefici.

Considerazioni per la scelta di altri casi d'uso

Quando si sceglie un caso d'uso, considerare i fattori seguenti.

Valutare attentamente quando si usa per l'assegnazione o la negazione dei vantaggi: l'uso dell'output OCR direttamente per l'assegnazione o la negazione dei vantaggi può causare errori se in base a informazioni non corrette o incomplete. Ad esempio, quando si compilano moduli medici, gli utenti possono fare errori o non includere informazioni importanti. Inoltre, l'OCR potrebbe leggere in modo errato o non rilevare parti del modulo. Per garantire decisioni equi e di alta qualità per i consumatori, combinare l'automazione basata su OCR con la supervisione umana.
Evitare l'uso per l'identificazione della firma: quando si estrae testo scritto a mano, evitare di usare i risultati OCR sulle firme per identificare i singoli utenti. Le firme sono difficili da leggere per gli esseri umani e le macchine. Un modo migliore per usare OCR consiste nell'usarlo per rilevare la presenza di una firma per un'ulteriore analisi.
Non usare OCR per decisioni che possono avere gravi effetti negativi: esempi di tali casi d'uso includono l'elaborazione di prescrizioni mediche e l'erogazione di farmaci. I modelli di Machine Learning che estraggono testo dalle prescrizioni possono comportare output di testo non rilevati o non corretti. Le decisioni basate sull'output errato potrebbero avere gravi effetti negativi. Inoltre, è consigliabile includere la revisione umana delle decisioni che hanno il potenziale di gravi impatti sulle persone.
Considerazioni legali e normative: le organizzazioni devono valutare potenziali obblighi legali e normativi specifici quando si usano strumenti e soluzioni Foundry, che potrebbero non essere appropriati per l'uso in ogni settore o scenario. Inoltre, gli strumenti o le soluzioni Foundry non sono progettati per e non possono essere usati in modi vietati in termini di servizio applicabili e codici di comportamento pertinenti.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-30