Classificazione/segmentazione della comprensione dei contenuti

Content Understanding consente di implementare la classificazione e la suddivisione come parte della richiesta dell'operazione dell'analizzatore. È possibile eseguire la classificazione del contenuto e l'estrazione del contenuto come parte di una singola chiamata API.

Il concetto globale di analyzer include ora il concetto di contentCategories e enableSegment per classificare e suddividere i dati di input enableSegment che elabori all'interno dell'applicazione. Questa funzionalità dell'analizzatore può eseguire la classificazione di un file di input nel suo complesso. Può anche identificare più documenti o più istanze di un singolo documento all'interno di un file di input.

A partire dalla versione GA, la progettazione della classificazione dei documenti e la segmentazione video sono unificate, consentendo un approccio coerente per elaborare i dati di input indipendentemente dalla modalità. Nella documentazione, "Content Understanding classification" si riferisce alle operazioni di analisi necessarie per classificare e dividere i dati di input (contentCategories e enableSegment).

Casi d'uso aziendali

La classificazione di Comprensione contenuto consente di elaborare documenti e video complessi in diversi formati e modelli:

Fatture: classificare le fatture da più fornitori per elaborare ogni categoria con un analizzatore Di comprensione del contenuto diverso, se necessario.
Documenti fiscali: classificare più documenti fiscali in diversi tipi di moduli fiscali, ad esempio 1040 e 1099.
Contratti: classificare contratti lunghi e non strutturati per semplificare le operazioni per comprendere diversi tipi di accordi e le relative implicazioni legali specifiche.
Video sportivo: segmentare automaticamente le scene per suddividere il video in blocchi logici, ad esempio annunci e contenuti sportivi effettivi.

Funzionalità di classificazione/segmentazione

Content Understanding può analizzare documenti singoli o multi-file per identificare se un file di input può essere classificato in una categoria definita. Sono supportati gli scenari che seguono:

Scenari del documento:

Classifica solo: classifica il file di input nel suo complesso. Ad esempio, un singolo file che contiene un tipo di documento, ad esempio un modulo di richiesta di prestito.
Classificare e analizzare: classifica e analizza il file di input instradando l'input all'analizzatore di estrazione desiderato.
Classificare e segmentare: classifica e segmenta un singolo file di input con più tipi o istanze di documenti concatenati. Ad esempio, un pacchetto di domanda di prestito che contiene un modulo di richiesta di prestito, una carta di pagamento e un estratto conto bancario. Un altro esempio è una raccolta di fatture scansionate in un singolo file.
Classificare, segmentare e analizzare: una volta classificati i segmenti, instradare ogni segmento all'analizzatore di estrazione desiderato per un'ulteriore estrazione dei campi.
Classificatore gerarchico: l'analisi aggiuntiva facoltativa a seconda della categoria può anche essere un analizzatore di classificatori.

Scenari video:

Solo segmento: suddividere il video in segmenti in base alle caratteristiche del contenuto definite nel description campo di contentCategories. Ad esempio, suddividere una trasmissione sportiva in segmenti di gioco, pubblicità e commenti.
Segmentare e analizzare: suddividere il video in segmenti e instradare ogni segmento a un analizzatore per l'estrazione dei campi.

Annotazioni

L'unità minima per la classificazione dei documenti è una singola pagina. La classificazione all'interno della pagina non è supportata.

Creare categorie di classificazione

La classificazione della comprensione del contenuto non richiede un set di dati di addestramento. È possibile definire fino a 200 nomi di categoria e descrizioni all'interno dell'operazione di analisi. Per impostazione predefinita, l'intero file viene considerato come un singolo oggetto contenuto, ovvero il file è associato a una singola categoria.

A partire dalla versione in disponibilità generale, è necessario includere la categoria other all'interno di contentCategories, per assicurarsi che il contenuto possa rimanere non corrispondente a una qualsiasi delle categorie definite. Se la other categoria non è inclusa, tutti i file vengono classificati in una delle categorie definite. Ogni nome di categoria definito all'interno contentCategories può includere anche un oggetto description per fornire altre informazioni sulla categoria che si sta definendo.

Suddivisione del file di input

Quando si dispone di più documenti in un file, il classificatore può identificare i diversi tipi di documento contenuti all'interno del file di input con funzionalità di suddivisione. La risposta del classificatore contiene gli intervalli di pagine per ognuno dei tipi di documento identificati contenuti all'interno di un file. Questa risposta può includere più istanze dello stesso tipo di documento.

Quando si esegue l'operazione analyze, include una proprietà enableSegment che ti consente di avere un controllo granulare sul comportamento di suddivisione. È anche possibile specificare i numeri di pagina per analizzare solo determinate pagine del documento di input:

Per trattare l'intero file di input come più documenti combinati insieme per la classificazione, impostare enableSegment su true. In questo caso, il servizio restituisce automaticamente le categorie per i segmenti all'interno del file di input.
Per trattare l'intero file di input come un singolo documento, impostare enableSegment a false.

Annotazioni

Per i video, è supportata solo la segmentazione. È necessario definire un singolo contentCategories con enableSegment impostato su true. Usare il description campo per specificare i criteri per suddividere il video in segmenti.

Analisi facoltativa

Per un flusso end-to-end completo, è possibile collegare categorie di classificatori con analizzatori personalizzati esistenti e analizzatori predefiniti. Per ogni oggetto contenuto classificato in categorie con analizzatori collegati, il servizio richiama automaticamente l'analisi sull'oggetto contenuto usando l'analizzatore corrispondente.

Ad esempio, è possibile usare questo collegamento per creare classificatori che identificano e analizzano solo le fatture da un PDF che contiene più tipi di moduli. Impostare analyzerId su un analizzatore predefinito o personalizzato per gestire e eseguire l'estrazione dei campi dai documenti o dalle pagine classificate.

È anche possibile omettere l'impostazione di qualsiasi analyzerId elemento da classificare, ma non eseguire alcuna analisi del contenuto nel file o nel segmento categorizzato.

Al livello superiore, è anche possibile impostare omitContent su true per omettere l'oggetto del contenuto originale e restituire solo gli oggetti di contenuto dall'analisi eseguita sui segmenti o sui file classificati.

Classificatore gerarchico

L'operazione dell'analizzatore supporta la suddivisione gerarchica e la classificazione. Ad esempio, all'interno dell'operazione dell'analizzatore di base, è possibile impostare un analizzatore personalizzato per le categorie di contenuto analyzerID che esegue classificazioni o suddivisioni aggiuntive. Gli analizzatori gerarchici supportano scenari come la categorizzazione dei tipi di documento, ad esempio fatture, contratti e ricevute, in cui l'oggetto analyzerID per ogni categoria può essere un'operazione di analisi con classificazione aggiuntiva abilitata per sottotipi di documento diversi.

Gli input del documento supportano cinque livelli di annidamento e gli input video supportano due.

Limiti del classificatore

Per informazioni sui formati di documento di input supportati e sui limiti del classificatore, vedere Quote e limiti del servizio.

Procedure consigliate

Per migliorare la qualità di classificazione e suddivisione, usare un nome di categoria e una descrizione validi in modo che il modello possa comprendere le categorie con un contesto specifico. Per altre informazioni sui nomi e le descrizioni delle categorie, vedere Procedure consigliate.

Vantaggi principali

Accuratezza e affidabilità: garantire una classificazione precisa dei documenti per ridurre gli errori e aumentare l'efficienza.
Scalabilità: scalare l'elaborazione dei documenti per soddisfare le esigenze aziendali.
Personalizzabile: adattare il classificatore di documenti in base a flussi di lavoro specifici.

Lingue e aree supportate

Per un elenco delle lingue e delle aree supportate, vedere Supporto di lingue e aree geografiche.

Privacy e sicurezza dei dati

Se utilizzi Content Understanding, esamina i criteri Microsoft sui dati dei clienti. Per altre informazioni, vedere Dati, protezione e privacy.

Provare a elaborare il contenuto del documento in Content Understanding Studio
Informazioni su come elaborare il contenuto del documento usando i modelli di analizzatore.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-03-23