Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Importante
Versioni API di anteprima 2024-12-01-preview e 2025-05-01-preview verranno ritirate entro il 15 luglio 2026. Se si usa ancora un'API di anteprima, aggiornare il codice per specificare come destinazione la versione 2025-11-01 (GA)più recente dell'API .
Le versioni delle API 2024-12-01-preview e 2025-05-01-preview sono in anteprima pubblica. Queste anteprime vengono fornite senza un contratto di servizio e non sono consigliate per i carichi di lavoro di produzione. Per altre informazioni, vedere Termini supplementari di utilizzo delle anteprime di Microsoft Azure e Appendice sulla protezione dei dati per i prodotti e servizi Microsoft (‘DPA’).
Poiché le organizzazioni usano sempre più l'intelligenza artificiale generativa per gestire documenti e dati non strutturati, è essenziale selezionare lo strumento giusto per creare flussi di lavoro affidabili, sicuri e scalabili per l'elaborazione di documenti. Questa è una panoramica comparativa delle principali soluzioni di intelligenza artificiale Azure per l'elaborazione intelligente dei documenti (IDP) che consentono di valutare e scegliere l'approccio più efficace per i requisiti aziendali. Questo articolo confronta le opzioni seguenti:
- Azure Document Intelligence in Foundry Tools: servizio attendibile per estrarre testo, tabelle e campi strutturati da documenti con OCR leader del settore e comprovata accuratezza.
- Azure Content Understanding in Foundry Tools: servizio Multimodal con estrazione di contenuti leader del settore (ad esempio, OCR e riconoscimento vocale), elaborazione bidirezionale di documenti, immagini, audio e video e funzionalità di intelligenza artificiale generative per l'estrazione di campi complessi.
- Azure-hosted LLMs (Azure Foundry models): piattaforma flessibile per la creazione di soluzioni di intelligenza artificiale personalizzate con il massimo controllo su modelli, richieste e flussi di lavoro.
Panoramica dei servizi
Ecco un riepilogo dei tre servizi disponibili:
| Servizio | Che cosa fa | Ideale per | Punti di forza | Funzionalità principali |
|---|---|---|---|---|
| Intelligence sui documenti | Estrae testo, coppie chiave-valore, tabelle e layout (struttura) da documenti, estrazione di campi con ancoraggio, affidabilità, supporto per la classificazione e la suddivisione. | Moduli standard, fatture, ricevute, ordini di acquisto, ID, contratti, documenti legali | Estrazione comprovata, accuratezza elevata, coerenza, punteggio di attendibilità e base, schemi predefiniti per molti tipi di documento basati su modelli | Modelli OCR/Lettura/Layout, Modelli predefiniti (fattura, imposta, ricevuta e così via), Modello personalizzato (estrazione e classificazione dei campi) |
| Comprensione del contenuto | Elabora documenti, immagini, audio e video; estrazione e inferenza dei campi più avanzati, supporto predefinito per la convalida, l'arricchimento e la post-elaborazione, il ragionamento integrato per attività complesse (anteprima) | Elaborazione complessa dei documenti che richiede campi estrattivi e dedotti, formati di documento con un numero elevato di varianti complesse o documenti realmente non strutturati, inferenza, riepilogo e generazione di metadati | Processo unificato predefinito per gli input multimodali; inizia senza etichettatura. Gestisce modelli e documenti non strutturati diversi, supporta il miglioramento continuo con esempi etichettati | Supporto avanzato per l'estrazione di contenuto (OCR, layout), estrazione di campi, campi derivati e classificazione, affrontare documenti di grandi dimensioni con variazioni elevate, configurare il modello di intelligenza artificiale di generazione per il controllo sulla qualità e sul prezzo. |
| Creare una soluzione personalizzata con Servizio Azure OpenAI | Creare una soluzione con qualsiasi modello LLM ospitato in Azure, controllo completo su modelli, richieste e strumenti | Gli sviluppatori che mirano a creare, possedere e gestire una soluzione che richiede un controllo granulare su modelli, costi e richieste | Massima flessibilità e controllo | Più opzioni per collegare e utilizzare facilmente nella scelta del modello, l'ottimizzazione dei prompt, la definizione del flusso di lavoro con la massima flessibilità nella creazione di ogni componente. Richiede investimenti di progettazione per gli aggiornamenti, la qualità e l'affidabilità dei modelli. |
Azure Document Intelligence
Intelligenza Documentale è la scelta attendibile per molti scenari documentali. Offre capabilità OCR e estrazione della struttura leader del settore, tra cui il riconoscimento delle tabelle, le figure, i paragrafi, i segni di selezione, le sezioni e altro ancora, con output in formato Markdown per semplificare l'integrazione con LLM per l'inserimento RAG, l'estrazione di campi e gli scenari di chat sui documenti.
Document Intelligence offre gli strumenti per creare soluzioni IDP scalabili e flessibili con classificazione e routing condizionale per l'estrazione ad alta precisione da modelli predefiniti come fatture, ricevute, moduli fiscali e carte di identificazione. Per qualsiasi modello personalizzato, è possibile etichettare alcuni esempi per eseguire il training di un modello di estrazione personalizzato in qualsiasi tipo di documento. I modelli di Document Intelligence presentano alcune limitazioni, ad esempio il supporto dell'estrazione solo dei risultati, la generalizzazione limitata dei modelli in molte varianti di modello e funzionalità di comprensione semantica limitata. Con i punteggi di attendibilità e i risultati fondati, è possibile creare una soluzione efficace di elaborazione estrattiva dei documenti a bassa latenza per la maggior parte degli scenari. Document Intelligence offre i modelli seguenti:
Digitalizzazione dei documenti o Riconoscimento ottico dei caratteri (OCR) per estrarre testo stampato o scritto a mano dai documenti.
Estrazione della struttura di documenti con Layout per estrarre tabelle, segni di selezione, sezioni e struttura del documento insieme a OCR.
Classificazione dei documenti per identificare, suddividere e classificare in modo accurato più documenti.
Estrazione di campi documento con modelli predefiniti per l'estrazione predefinita dello schema da tipi di documento standard, ad esempio imposte, mutui, assegni bancari, moduli con variazioni più elevate, ad esempio fatture, ricevute e ID, e modelli personalizzati per etichettare ed eseguire il training del proprio modello.
Comprensione del contenuto di Azure
La Comprensione del Contenuto di Azure, basata sulle stesse funzionalità di base di Document Intelligence, espande gli scenari di documenti alle immagini e al contenuto incorporato, espandendosi a scenari multimodali con audio e video. Content Understanding è progettato per l'elaborazione di contenuti con intelligenza artificiale generativa, migliorando la possibilità di generare l'output specifico necessario con campi, arricchimenti, convalide e ragionamento dedotti.
Content Understanding semplifica il processo di creazione di una soluzione efficace per l'elaborazione di documenti, impacchettando queste funzionalità in un processo semplice e facile da usare per la compilazione dell'analizzatore con output zero-shot e senza etichettatura, fornendo allo stesso tempo uno schema completo che include punteggi di attendibilità e contestualizzazione, ove applicabile. Content Understanding offre un set completo di strumenti tra gli altri che possono essere configurati per risolvere la maggior parte delle problematiche di elaborazione dei documenti.
- Aggiornamento di lettura e layout: Content Understanding Layout include alcune funzionalità aggiornate, tra cui tabelle a più pagine, estrazione di collegamenti ipertestuali e altro ancora. Altre informazioni sulle nuove funzionalità in Layout. I modelli per lettura e layout vengono aggiornati con miglioramenti della qualità dell'intelligenza artificiale.
- Miglioramento dei prezzi del layout: Content Understanding include prezzi nuovi e inferiori per il layout, vedere prezzi per altri dettagli.
- Campi e arricchimenti dedotti: genera campi di output che non sono presenti in modo esplicito nel documento. Ad esempio, calcolare l'imposta totale su una fattura, determinare la giurisdizione per un contratto dagli indirizzi delle parti o derivare informazioni dettagliate dalla formulazione delle clausole.
- Classificazione e suddivisione: analizzare file di grandi dimensioni per identificare e dividere singoli segmenti per il routing intelligente e l'estrazione dello schema di destinazione. Le destinazioni includono tutti gli analizzatori, inclusi quelli predefiniti e personalizzati.
- Post-elaborazione e convalide: definire le regole di post-elaborazione direttamente nelle descrizioni dei campi, ad esempio la conversione di formati di data, la normalizzazione dei codici di valuta e l'esecuzione di controlli di coerenza.
- Scelta del modello: Content Understanding supporta più modelli di intelligenza artificiale di generazione per l'uso, offrendo la flessibilità necessaria per selezionare il modello che offre la migliore qualità dei risultati/compromessi sui costi. Altre informazioni sui modelli supportati.
- Input multi-file (anteprima): Elaborare più file di input in una singola richiesta ed estrarre uno schema unificato per tutti gli input, consentendo la convalida e l'aggregazione tra documenti.
- Ragionamento (anteprima): semplificare flussi di lavoro complessi di elaborazione dei documenti intelligenti. Anziché creare processi in più passaggi per estrazione, convalida, aggregazione e revisioni, Content Understanding gestisce tutti gli elementi in una singola operazione unificata.
Nota
A partire dalla versione GA, Content Understanding usa le distribuzioni del modello di Foundry per tutte le operazioni che richiedono un modello di intelligenza artificiale generativa. Per altre informazioni sui modelli da distribuire e usare, vedere la pagina Modelli e distribuzioni .
LLMs ospitati su Azure (modelli Foundry)
Per le organizzazioni che richiedono flussi di lavoro di intelligenza artificiale di nicchia, le soluzioni personalizzate create con i modelli Foundry offrono la massima flessibilità. È possibile combinare modelli come GPT-4.1, Whisper e Incorporamenti per creare soluzioni di intelligenza artificiale altamente personalizzate, integrando in genere Document Intelligence o Content Understanding per la pre-elaborazione dei documenti in flussi di lavoro personalizzati.
Questo approccio richiede di valutare i modelli, aggiornarli in base alle esigenze, gestire le richieste e ottimizzare i costi. Una sfida comune è il compromesso tra la gestione dei costi e l'accuratezza, poiché questo approccio non dispone di strumenti adeguati per attivare revisioni solo per casi complessi. I punteggi di attendibilità e la base di origine sono un divario critico che richiede investimenti di ingegneria o revisione umana significativi.
Funzionalità del servizio
Ecco una panoramica delle funzionalità per tutti e tre i servizi.
| Funzionalità | Intelligence sui documenti | Comprensione del contenuto | Crea il tuo con Azure OpenAI |
|---|---|---|---|
| Riconoscimento Ottico dei Caratteri (OCR) | OCR del settore leader | OCR leader del settore | Richiede la pre-elaborazione |
| Struttura complessa del documento | Layout con tabelle, sezioni, segni di selezione, figure e altro ancora | Layout migliorato con tabelle a più pagine, sezioni, segni di selezione, figure e altro ancora | Richiede la pre-elaborazione |
| Estrarre campi | Sì | Sì | Sì |
| Punteggi di attendibilità | Sì | Sì | No, richiede un'implementazione aggiuntiva |
| Messa a terra di origine | Sì | Sì | No, richiede un'implementazione aggiuntiva |
| Campi inferiti | No | Sì, con campi generativi e classificati | Sì |
| Generare metadati | No | Sì | Sì |
| Post-elaborazione | Limitato | Personalizzato con limitazioni | Processo definito dall'utente |
| Elaborare file di grandi dimensioni | Sì | Sì | Richiede la suddivisione in blocchi e altre strategie per ottenere prestazioni ottimali |
| Facilità d'uso | Richiede l'etichettatura e il training per creare un modello personalizzato, può usare direttamente il layout e i modelli predefiniti | Definizione di schema semplice senza etichette necessarie per iniziare. Etichetta da migliorare. | Ottimizzare i risultati con la progettazione dei prompt |
| Scalabilità per l'uso | Gestito | Gestito con la distribuzione di intelligenza artificiale generativa connessa | Ridimensionare manualmente i componenti in base alle esigenze |
| Latenza | Basso | Medio | Dipende dalle PTU implementate |
| Input di più file | No | Sì, supporto in modalità Pro (2025-05-01-preview) |
No |
| Base di conoscenze | No | Sì (anteprima) | Complesso e richiede l'ingegneria |
| Ragionamento | No | Sì, supporto in modalità Pro (2025-05-01-preview) |
Complesso e richiede l'ingegneria |
Quando scegliere Content Understanding rispetto a creare-un-modello-personalizzato
| Vantaggio | Comprensione dei contenuti di Azure | Creare un modello personalizzato |
|---|---|---|
| Pipeline unificata e multifunzionale | ✅ Supporta documenti, immagini, audio, video | ❌ Richiede l'orchestrazione |
| Arricchimenti predefiniti e normalizzazione dello schema | ✅ Modelli predefiniti disponibili | ❌ Richiede l'implementazione |
| Prezzi semplificati | ✅ Prezzi basati su token | ✅ Prezzi basati su token |
| Governance aziendale e sicurezza | ✅ conformità alla sicurezza di Azure | ❌ Implementazione personalizzata |
| Punteggi di attendibilità | ✅ Punteggi predefiniti | ❌ Implementazione personalizzata |
| Messa a terra della sorgente | ✅ Punteggi predefiniti | ❌ Implementazione personalizzata |
| Suddivisione in blocchi e normalizzazione | ✅ Algoritmi predefiniti | ❌ Implementazione personalizzata |
| Ottimizzazione dei prompt | ✅ Ottimizzato automaticamente | ❌ Necessita di ingegneria |
| Finestra di contesto | ✅ Ottimizzato per file lunghi | ❌ Gestione manuale |
| Flussi di lavoro di ragionamento aziendale | ✅ Funzionalità di ragionamento predefinite (anteprima) | ❌ Concatenamento personalizzato |
Procedure dettagliate per scenari guidati
Verranno ora esaminate varie categorie di scenari di elaborazione dei documenti che possono verificarsi e come spostarsi tra loro con il servizio più adatto. Ecco alcuni esempi di diversi scenari di elaborazione dei documenti, le sfide associate e le considerazioni per la creazione di una soluzione efficace. Se il tipo di documento che si sta elaborando è supportato da una predefinita, è consigliabile iniziare da lì e scegliere di creare una soluzione personalizzata solo se lo schema predefinito non copre lo scenario.
Considerazioni:
- Elaborazione diretta (STP): misura del numero di documenti che è possibile elaborare senza richiedere una revisione umana in base ai punteggi di attendibilità. Livelli di attendibilità e accuratezza più elevati consentono di automatizzare la maggior parte dei documenti senza intervento manuale.
- Latenza: tempo necessario per elaborare un documento, critico per gli scenari in cui il tempo di inferenza è importante per l'esperienza dell'utente finale.
- Accuratezza: tasso di errore complessivo della soluzione. Maggiore precisione significa maggiore affidabilità sull'output del sistema.
- Miglioramento continuo: per garantire che il sistema possa migliorare nel tempo e misurare il cambiamento di qualità con il tempo.
- Complessità: a seconda del caso d'uso, cosa si vuole estrarre o dedurre dai documenti.
- Lavoro di compilazione: tentativo di creare il modello, tra cui la gestione di logica complessa, i requisiti aziendali, l'etichettatura dei dati e l'inserimento di flussi di lavoro complessi.
- Costo totale di proprietà: visione comparativa dei costi di infrastruttura, gestione e manutenzione per il tuo caso d'uso con adattamento alla scala.
Scenario 1: Elaborazione di un modulo standardizzato a formato singolo
Processo aziendale:
Estrarre campi fissi come Nome, Data di nascita, Indirizzo, Numero account e altri dettagli dai moduli con modelli identici ogni volta.
Esempi:
- Modulo di inserimento lavorativo (stesso layout per tutti i dipendenti)
- Modulo di richiesta di rimborso per un provider di e-commerce specifico
- Modulo di assunzione dei pazienti per un provider di salute specifico
- Applicazione di apertura conto per un provider bancario specifico
Raccomandazione:
- Questa classe di documenti verrebbe servita da Content Understanding
(recommended)o Document Intelligence. Content Understanding offre un'esperienza introduttiva più semplice. Entrambi i servizi forniscono punteggi di attendibilità e base per assicurarsi di ridurre al minimo i costi e la scalabilità delle revisioni umane.
Scenario 2: Gestione dei documenti con poche varianti note
Processo aziendale:
Estrarre campi coerenti (nome, importo, numero di polizza, data della richiesta) in un piccolo set noto di modelli.
Esempi:
- Moduli di attestazione assicurativa con pochi formati per aree geografiche specifiche (ad esempio: Stati Uniti, Regno Unito, APAC)
- Moduli fiscali annuali con aggiornamenti di layout secondari ogni anno
- Domanda di ammissione universitaria per diversi programmi di laurea
- Report spese dipendenti con modelli specifici per reparto
Raccomandazione:
- Comprensione del
(Recommended)contenuto: iniziare con l'analizzatore di fatture precompilato. Soluzione generalizzata con punteggi di attendibilità e fondamento. Con funzionalità di layout e OCR migliorate e comprensione semantica dei documenti, Content Understanding dovrebbe offrire i risultati migliori. - Intelligenza dei documenti: eseguire il training di modelli personalizzati con almeno cinque campioni di ogni variante e combinare le varianti in un unico modello se le differenze sono minori. Gli output sono coerenti con i punteggi di attendibilità e il fondamento.
- Creare una soluzione personalizzata: compilare e configurare i componenti necessari per analizzare i documenti (layout), estrarre i campi e qualsiasi compilazione necessaria dopo l'elaborazione. La soluzione deve essere testata e verificata con diverse varianti ed è necessario ridimensionare e gestire la soluzione distribuita. Senza punteggi di attendibilità, si accettano tutti i risultati o si esaminano tutti i risultati in base alla frequenza di errore prevista oppure è possibile creare un modello di attendibilità personalizzato per assegnare un punteggio all'output.
Scenario 3: Documenti semistrutturati a variazione elevata
Processo aziendale:
Estrarre campi chiave come Numero fattura, Nome fornitore, Importo totale, Elementi riga e Date da documenti altamente diversi con modelli incoerenti.
Esempi:
- Fatture provenienti da più fornitori con formati diversi
- Ricevute da catene di negozi internazionali
- Note di recapito con modelli diversi dai fornitori
- Ordini di acquisto con layout incoerenti tra i fornitori
- Trascrizioni degli studenti provenienti da diverse università
Raccomandazione:
- Comprensione
(Recommended)del contenuto: con un'esperienza introduttiva semplice e analizzatori che possono generalizzare i modelli e le variazioni nel linguaggio, Content Understanding è meglio attrezzato per fornire un output di alta qualità con un sovraccarico di gestione minimo. - Intelligence per i documenti: modello precostruito, se applicabile, oppure è possibile creare modelli personalizzati con più etichette per ottenere un output solido, a bassa latenza e coerente.
- Creare una soluzione personalizzata: compilare e configurare i componenti necessari per analizzare i documenti (layout), estrarre i campi e qualsiasi compilazione necessaria dopo l'elaborazione. La soluzione deve essere testata e verificata con diverse varianti ed è necessario ridimensionare e gestire la soluzione distribuita. Senza punteggi di attendibilità, si accettano tutti i risultati o si esaminano tutti i risultati in base alla frequenza di errore prevista.
Scenario 4: Estrazione di informazioni dettagliate da documenti non strutturati
Processo aziendale:
Estrarre, generare dettagli astratti, ad esempio obblighi, riepiloghi, dettagli di inferenza, ad esempio parti del contratto, indicatori di rischio, sentiment o decisioni da documenti di testo libero, multi-pagina, documenti narrativi.
Esempi:
- Contratti legali e contratti di servizio
- Rapporti sugli investimenti
- Documenti di ricerca
- Lettere di riferimento dei pazienti
- Report di feedback dei dipendenti
Raccomandazione:
- Informazioni sul
(Recommended)contenuto: il servizio ideale per questo specifico caso d'uso. Content Understanding può estrarre campi dedotti, ad esempio una data di fine di un contratto con data di inizio e durata, imposta totale o area geografica - Creare una soluzione personalizzata: compilare e configurare i componenti necessari per analizzare i documenti (layout), estrarre i campi e qualsiasi compilazione necessaria dopo l'elaborazione. La soluzione deve essere testata e verificata con diverse varianti e sarà necessario ridimensionare e gestire la soluzione distribuita. Senza punteggi di attendibilità, si accettano tutti i risultati o si esaminano tutti i risultati in base alla frequenza di errore prevista.
Scenario 5: Elaborazione multi-documento e multimediale
Processo aziendale:
Aggregare il contenuto da formati diversi, dettagli tra riferimenti, convalidare la coerenza (ad esempio, corrispondenze dei nomi tra documenti) e incoerenze di superficie.
Esempi:
- Contenuto di onboarding: moduli PDF + immagini ID + interviste video registrate
- Casi di conformità: testo di posta elettronica + contratto + trascrizione delle chiamate
- Attestazioni mediche: note mediche + rapporti di laboratorio + consulti telefonici
- Invii di RFP multimediali: Proposta PDF + immagini prodotto + video di spiegazione
Raccomandazione:
- Informazioni sul contenuto: con la modalità Pro (
2025-05-01-preview), Content Understanding può accettare più documenti di input nella stessa richiesta, il motivo per il contenuto e i dati di riferimento e generare lo schema di output richiesto. - Creare una soluzione personalizzata: questo scenario richiede una soluzione agentica in cui i diversi file di input devono essere analizzati e collettivamente ragionati. La soluzione richiede un'elaborazione complessa per determinare i tipi di documento e i valori previsti e generare un output unificato.
Riepilogo
La scelta del servizio di elaborazione dei documenti appropriato dipende dalla complessità dell'attività, del formato o della diversità dei modelli, dalle esigenze di ragionamento, dalla sensibilità alla latenza, dalle esigenze di revisione umana e dai requisiti di integrazione aziendale. Basato su Document Intelligence, Content Understanding offre funzionalità di OCR, layout ed estrazione dei campi migliorate con post-elaborazione predefinita. Corrisponde completamente alla funzionalità di Intelligence dei documenti, estendendo al tempo stesso il supporto per tipi di documenti più complessi e diversi. Iniziare con Content Understanding per la maggior parte degli scenari IDP.
Usare i modelli Foundry per flussi di lavoro personalizzati, sperimentali o di intelligenza artificiale conversazionale in cui i servizi gestiti non sono adatti. Il layout di Content Understanding può essere usato come servizio di pre-elaborazione per tutti i documenti di input.
In passato, molte aziende combinano questi servizi in soluzioni ibride, usando Document Intelligence per il layout o l'estrazione di contenuto come passaggio di pre-elaborazione. Content Understanding offre ora una soluzione per la maggior parte di questi scenari.