Visualizzare i risultati della valutazione nel portale di Microsoft Foundry

Questo articolo illustra come:

Individuare e aprire le esecuzioni di valutazione.
Visualizzare le metriche aggregate e a livello di esempio.
Confrontare i risultati tra diverse esecuzioni.
Interpretare le categorie e i calcoli delle metriche.
Risolvere i problemi relativi alle metriche mancanti o parziali.

Prerequisiti

Ruolo di Utente Azure AI nel progetto Foundry. Per altre informazioni, vedere Controllo degli accessi in base al ruolo per Microsoft Foundry.
Esecuzione di valutazione completata.
- Per eseguire valutazioni nel portale, vedere Valutare modelli e applicazioni di intelligenza artificiale generativi.
- Per eseguire valutazioni dall'SDK, vedere Eseguire valutazioni dall'SDK o Valutare gli agenti di intelligenza artificiale.

Visualizzare i risultati della valutazione

Nel portale di Foundry passare al progetto e selezionare Valutazione nel riquadro sinistro.

Selezionare un'esecuzione di valutazione dall'elenco per aprire la relativa pagina dei dettagli. Se l'esecuzione è ancora in corso, lo stato mostra Running e si aggiorna automaticamente al termine.

La pagina dei dettagli mostra:

Campo	Descrizione
Nome	Nome dell'esecuzione della valutazione.
Obiettivo	Modello o agente valutato.
Dataset	Set di dati di test usato. Selezionare l'icona di download per esportarla come file CSV.
Stato	Stato corrente dell'esecuzione (In esecuzione, Completato o Non riuscito).
Token di valutazione	Token utilizzati dagli analizzatori durante l'esecuzione.
Token di destinazione	Token utilizzati dal modello o dall'agente da valutare.
Punteggi	Punteggio aggregato per ogni analizzatore usato.

Passare il puntatore del mouse su una cella del punteggio per visualizzare i dettagli di utilizzo dei token e un contesto aggiuntivo.
Selezionare Altre informazioni sulle metriche per visualizzare le definizioni delle metriche e le formule di assegnazione dei punteggi.

Dettagli dell'esecuzione della valutazione

Selezionare il nome del run per visualizzare i risultati a livello di riga per ogni singola query. Per ogni riga, puoi vedere la query, la risposta, la verità di base, il punteggio del valutatore e la spiegazione del punteggio.

Confrontare i risultati della valutazione

Per confrontare due o più esecuzioni, selezionare le esecuzioni da confrontare e avviare il processo.

Selezionare due o più esecuzioni nella pagina dei dettagli di valutazione.
Selezionare Confronta.

Viene visualizzata una visualizzazione di confronto affiancata per tutte le esecuzioni selezionate.

Il confronto usa test t statistici, che offre risultati più sensibili e affidabili per prendere decisioni. È possibile usare diverse funzionalità di questa funzionalità:

Confronto tra baseline: impostando un'esecuzione di base, è possibile identificare un punto di riferimento in base al quale confrontare le altre esecuzioni. È possibile vedere come ogni esecuzione devia dallo standard scelto.
Valutazione statistica del test t: ogni cella fornisce i risultati stat-sig con codici di colore diversi. È anche possibile passare il puntatore del mouse sulla cella per ottenere le dimensioni del campione e il valore p.

Leggenda	Definizione
MiglioramentoStrong	Altamente statisticamente significativo (p<=0.001) e si è spostato nella direzione prevista
Miglioramento Debole	Stat-sig (0.001<p<=0.05) e spostato nella direzione desiderata
DegradedStrong	Altamente statisticamente significativo (p<=0.001) e indirizzato nella direzione sbagliata
Indebolito Degradato	Stat-sig (0.001<p<=0.05) e spostato nella direzione sbagliata
ChangedStrong	Altamente significativo dal punto di vista statistico (p<=0.001) e la direzione desiderata è neutra
ChangedWeak	Stat-sig (0.001<p<=0.05) e la direzione desiderata è neutra
Non conclusivo	Troppo pochi esempi o p>=0.05

Nota

La visualizzazione di confronto non viene salvata. Se si lascia la pagina, è possibile deselezionare nuovamente le esecuzioni e selezionare Confronta per rigenerare la visualizzazione.

Informazioni sulle metriche di valutazione predefinite

Comprendere le metriche predefinite è essenziale per valutare le prestazioni e l'efficacia dell'applicazione di intelligenza artificiale. Apprendendo questi strumenti di misurazione chiave, è possibile interpretare i risultati, prendere decisioni informate e ottimizzare l'applicazione per ottenere risultati ottimali.

Per altre informazioni, vedere Analizzatori predefiniti.

Risoluzione dei problemi

Sintomo	Possibile causa	Azione
Il processo rimane in sospeso	Alta carico di servizio o lavori in coda	Aggiornare, verificare la quota e inviare di nuovo se prolungato
Metriche mancanti	Non selezionato al momento della creazione	Rieseguire e selezionare le metriche necessarie
Tutte le metriche di sicurezza zero	Categoria disabilitata o modello non supportata	Confermare il supporto del modello e del valutatore nei valutatori di rischio e sicurezza
Messa a terra inaspettatamente bassa	Recupero/contesto incompleto	Verificare la latenza di costruzione/recupero del contesto

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-05-01