Informazioni di riferimento per i valutatori predefiniti (versione classica)

Visualizzazione attuale:Versione del portale Foundry (versione classica) - Passa alla versione per il nuovo portale Foundry

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero avere funzionalità limitate. Per altre informazioni, vedere Condizioni supplementari per l'utilizzo delle anteprime di Microsoft Azure.

Microsoft Foundry offre un set completo di analizzatori predefiniti per valutare la qualità, la sicurezza e l'affidabilità delle risposte di intelligenza artificiale durante tutto il ciclo di vita dello sviluppo. Questo riferimento illustra in dettaglio tutti gli analizzatori disponibili, i relativi scopi, gli input necessari e le indicazioni sulla selezione dell'analizzatore corretto per il caso d'uso. È anche possibile creare analizzatori personalizzati personalizzati in base ai criteri di valutazione specifici.

Nota

Il Microsoft Foundry SDK per la valutazione e il portale foundry sono disponibili in anteprima pubblica, ma le API sono disponibili a livello generale per la valutazione del modello e del set di dati (la valutazione dell'agente rimane in anteprima pubblica). I Azure AI Evaluation SDK e gli analizzatori contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica ovunque.

Analizzatori per utilizzo generico

Valutatore Scopo
Coerenza Misura la coerenza logica e il flusso delle risposte.
Fluidità Misura la qualità e la leggibilità del linguaggio naturale.

Per altre informazioni, vedere Analizzatori per utilizzo generico.

Valutatori di somiglianza testuale

Valutatore Scopo
Somiglianza Misurazione della somiglianza testuale assistita dall'intelligenza artificiale.
Punteggio F1 Media armonica di precisione e richiamo nelle sovrapposizioni di token tra risposta e verità di base.
BLEU Il punteggio Understudy della valutazione bilingue per la qualità della traduzione misura le sovrapposizioni in n-grammi tra risposta e verità di base.
GLEU La variante Google-BLEU per la valutazione a livello di frase misura le sovrapposizioni in n-grammi tra la risposta e la verità di base.
ROUGE L'Understudy orientato al richiamo per la valutazione del compendio misura le sovrapposizioni in n-grammi tra risposta e verità di base.
METEOR La metrica per la valutazione della traduzione con Ordinamento Esplicito misura le sovrapposizioni in n-grammi tra la risposta e la verità di riferimento.

Per altre informazioni, vedere Analizzatori di somiglianza testuale.

Analizzatori RAG

Valutatore Scopo
Recupero Misura il modo in cui il sistema recupera le informazioni pertinenti.
Recupero documenti Misura l'accuratezza nei risultati del recupero in base alla verità del terreno.
Connessione alla realtà Misura la coerenza della risposta rispetto al contesto recuperato.
Groundedness Pro (anteprima) Misura se la risposta è coerente rispetto al contesto recuperato.
Rilevanza Misura la rilevanza della risposta rispetto alla query.
Completezza della risposta Misura in quale misura la risposta è completa (non mancano informazioni critiche) rispetto alla verità sul terreno.

Per altre informazioni, vedere Analizzatori di generazione aumentata (RAG, Retrieval-Augmented Generation).

Analizzatori di rischi e sicurezza

Valutatore Scopo
Odio e ingiustità Identifica contenuti distorti, discriminatori o odiosi.
Sessuale Identifica contenuti sessuali inappropriati.
Violenza Rileva contenuti violenti o incitamenti.
Autolesionismo Rileva contenuti che promuovono o descrivono l'autolesionismo.
Sicurezza dei contenuti Valutazione completa dei vari problemi di sicurezza.
Materiali protetti Rileva l'uso non autorizzato di contenuti protetti o protetti da copyright.
Vulnerabilità del codice Identifica i problemi di sicurezza nel codice generato.
Attributi non collegati Rileva le informazioni fabbricate o allucinate dedotte dalle interazioni dell'utente.

Per altre informazioni, vedere Analizzatori di rischi e sicurezza.

Valutatori di agenti

Valutatore Scopo
Risoluzione delle finalità (anteprima) Misura l'accuratezza con cui l'agente identifica e gestisce le intenzioni dell'utente.
Adesione alle attività (anteprima) Misura il modo in cui l'agente segue nelle attività identificate.
Accuratezza della chiamata dello strumento (anteprima) Misura il modo in cui l'agente seleziona e chiama gli strumenti corretti.

Per altre informazioni, vedere Valutatori di agenti.

Esaminatori di Azure OpenAI

Valutatore Scopo
Etichettatore di Modelli Classifica il contenuto usando linee guida ed etichette personalizzate.
Controllo stringhe Esegue convalide di testo flessibili e riconoscimento di modelli.
Somiglianza del testo Valuta la qualità del testo o determina la prossimità semantica.
Valutatore del modello Genera punteggi numerici (intervallo personalizzato) per il contenuto in base alle linee guida personalizzate.

Per altre informazioni, vedere Azure OpenAI Graders.

Analizzatori personalizzati

Oltre agli analizzatori predefiniti, è possibile creare analizzatori personalizzati personalizzati in base ai criteri di valutazione specifici. Gli analizzatori personalizzati consentono di definire logica di assegnazione dei punteggi univoca, regole di convalida e metriche di qualità allineate ai requisiti aziendali e alle esigenze specifiche dell'applicazione.

Per altre informazioni, vedere Analizzatori personalizzati.

Combinazione di valutatori

Per una valutazione della qualità completa, combinare più analizzatori:

  • Applicazioni RAG: recupero + rilevanza + rilevanza + sicurezza del contenuto
  • Applicazioni agente: Accuratezza della chiamata dello strumento + Adesione al compito + Risoluzione intento + Sicurezza del contenuto
  • Applicazioni di traduzione: BLEU + METEOR + Fluency + Coerenza
  • Tutte le applicazioni: Aggiungere valutatori di rischio e sicurezza (Odio e Ingiustizia, Sessuale, Violenza, Self-Harm) per pratiche di IA responsabili