Informazioni di riferimento per i valutatori predefiniti (versione classica)

Visualizzazione attuale:Versione del portale Foundry (versione classica) - Passa alla versione per il nuovo portale Foundry

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero avere funzionalità limitate. Per altre informazioni, vedere Condizioni supplementari per l'utilizzo delle anteprime di Microsoft Azure.

Microsoft Foundry offre un set completo di analizzatori predefiniti per valutare la qualità, la sicurezza e l'affidabilità delle risposte di intelligenza artificiale durante tutto il ciclo di vita dello sviluppo. Questo riferimento illustra in dettaglio tutti gli analizzatori disponibili, i relativi scopi, gli input necessari e le indicazioni sulla selezione dell'analizzatore corretto per il caso d'uso. È anche possibile creare analizzatori personalizzati personalizzati in base ai criteri di valutazione specifici.

Nota

Il Microsoft Foundry SDK per la valutazione e il portale foundry sono disponibili in anteprima pubblica, ma le API sono disponibili a livello generale per la valutazione del modello e del set di dati (la valutazione dell'agente rimane in anteprima pubblica). I Azure AI Evaluation SDK e gli analizzatori contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica ovunque.

Analizzatori per utilizzo generico

Valutatore	Scopo
Coerenza	Misura la coerenza logica e il flusso delle risposte.
Fluidità	Misura la qualità e la leggibilità del linguaggio naturale.

Per altre informazioni, vedere Analizzatori per utilizzo generico.

Valutatori di somiglianza testuale

Valutatore	Scopo
Somiglianza	Misurazione della somiglianza testuale assistita dall'intelligenza artificiale.
Punteggio F1	Media armonica di precisione e richiamo nelle sovrapposizioni di token tra risposta e verità di base.
BLEU	Il punteggio Understudy della valutazione bilingue per la qualità della traduzione misura le sovrapposizioni in n-grammi tra risposta e verità di base.
GLEU	La variante Google-BLEU per la valutazione a livello di frase misura le sovrapposizioni in n-grammi tra la risposta e la verità di base.
ROUGE	L'Understudy orientato al richiamo per la valutazione del compendio misura le sovrapposizioni in n-grammi tra risposta e verità di base.
METEOR	La metrica per la valutazione della traduzione con Ordinamento Esplicito misura le sovrapposizioni in n-grammi tra la risposta e la verità di riferimento.

Per altre informazioni, vedere Analizzatori di somiglianza testuale.

Analizzatori RAG

Valutatore	Scopo
Recupero	Misura il modo in cui il sistema recupera le informazioni pertinenti.
Recupero documenti	Misura l'accuratezza nei risultati del recupero in base alla verità del terreno.
Connessione alla realtà	Misura la coerenza della risposta rispetto al contesto recuperato.
Groundedness Pro (anteprima)	Misura se la risposta è coerente rispetto al contesto recuperato.
Rilevanza	Misura la rilevanza della risposta rispetto alla query.
Completezza della risposta	Misura in quale misura la risposta è completa (non mancano informazioni critiche) rispetto alla verità sul terreno.

Per altre informazioni, vedere Analizzatori di generazione aumentata (RAG, Retrieval-Augmented Generation).

Analizzatori di rischi e sicurezza

Valutatore	Scopo
Odio e ingiustità	Identifica contenuti distorti, discriminatori o odiosi.
Sessuale	Identifica contenuti sessuali inappropriati.
Violenza	Rileva contenuti violenti o incitamenti.
Autolesionismo	Rileva contenuti che promuovono o descrivono l'autolesionismo.
Sicurezza dei contenuti	Valutazione completa dei vari problemi di sicurezza.
Materiali protetti	Rileva l'uso non autorizzato di contenuti protetti o protetti da copyright.
Vulnerabilità del codice	Identifica i problemi di sicurezza nel codice generato.
Attributi non collegati	Rileva le informazioni fabbricate o allucinate dedotte dalle interazioni dell'utente.

Per altre informazioni, vedere Analizzatori di rischi e sicurezza.

Valutatori di agenti

Valutatore	Scopo
Risoluzione delle finalità (anteprima)	Misura l'accuratezza con cui l'agente identifica e gestisce le intenzioni dell'utente.
Adesione alle attività (anteprima)	Misura il modo in cui l'agente segue nelle attività identificate.
Accuratezza della chiamata dello strumento (anteprima)	Misura il modo in cui l'agente seleziona e chiama gli strumenti corretti.

Per altre informazioni, vedere Valutatori di agenti.

Esaminatori di Azure OpenAI

Valutatore	Scopo
Etichettatore di Modelli	Classifica il contenuto usando linee guida ed etichette personalizzate.
Controllo stringhe	Esegue convalide di testo flessibili e riconoscimento di modelli.
Somiglianza del testo	Valuta la qualità del testo o determina la prossimità semantica.
Valutatore del modello	Genera punteggi numerici (intervallo personalizzato) per il contenuto in base alle linee guida personalizzate.

Per altre informazioni, vedere Azure OpenAI Graders.

Analizzatori personalizzati

Oltre agli analizzatori predefiniti, è possibile creare analizzatori personalizzati personalizzati in base ai criteri di valutazione specifici. Gli analizzatori personalizzati consentono di definire logica di assegnazione dei punteggi univoca, regole di convalida e metriche di qualità allineate ai requisiti aziendali e alle esigenze specifiche dell'applicazione.

Per altre informazioni, vedere Analizzatori personalizzati.

Combinazione di valutatori

Per una valutazione della qualità completa, combinare più analizzatori:

Applicazioni RAG: recupero + rilevanza + rilevanza + sicurezza del contenuto
Applicazioni agente: Accuratezza della chiamata dello strumento + Adesione al compito + Risoluzione intento + Sicurezza del contenuto
Applicazioni di traduzione: BLEU + METEOR + Fluency + Coerenza
Tutte le applicazioni: Aggiungere valutatori di rischio e sicurezza (Odio e Ingiustizia, Sessuale, Violenza, Self-Harm) per pratiche di IA responsabili

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-05-05