Visualizzare i risultati della valutazione nel portale di Microsoft Foundry

Questo articolo illustra come:

  • Individuare e aprire le esecuzioni di valutazione.
  • Visualizzare le metriche aggregate e a livello di esempio.
  • Confrontare i risultati tra diverse esecuzioni.
  • Interpretare le categorie e i calcoli delle metriche.
  • Risolvere i problemi relativi alle metriche mancanti o parziali.

Prerequisiti

Visualizzare i risultati della valutazione

  1. Nel portale di Foundry passare al progetto e selezionare Valutazione nel riquadro sinistro.

  2. Selezionare un'esecuzione di valutazione dall'elenco per aprire la relativa pagina dei dettagli. Se l'esecuzione è ancora in corso, lo stato mostra Running e si aggiorna automaticamente al termine.

    La pagina dei dettagli mostra:

    Campo Descrizione
    Nome Nome dell'esecuzione della valutazione.
    Obiettivo Modello o agente valutato.
    Dataset Set di dati di test usato. Selezionare l'icona di download per esportarla come file CSV.
    Stato Stato corrente dell'esecuzione (In esecuzione, Completato o Non riuscito).
    Token di valutazione Token utilizzati dagli analizzatori durante l'esecuzione.
    Token di destinazione Token utilizzati dal modello o dall'agente da valutare.
    Punteggi Punteggio aggregato per ogni analizzatore usato.

    Screenshot della pagina Valutazione che mostra un elenco di esecuzioni con colonne Nome, Stato, Destinazione, Token di valutazione, Token di destinazione e Punteggi.

  3. Passare il puntatore del mouse su una cella del punteggio per visualizzare i dettagli di utilizzo dei token e un contesto aggiuntivo.

    Screenshot della pagina Valutazione con una cella del punteggio evidenziata quando vi si passa sopra con il mouse, che mostra un tooltip con la scomposizione dell'utilizzo dei token.

  4. Selezionare Altre informazioni sulle metriche per visualizzare le definizioni delle metriche e le formule di assegnazione dei punteggi.

Dettagli dell'esecuzione della valutazione

Selezionare il nome del run per visualizzare i risultati a livello di riga per ogni singola query. Per ogni riga, puoi vedere la query, la risposta, la verità di base, il punteggio del valutatore e la spiegazione del punteggio.

Confrontare i risultati della valutazione

Per confrontare due o più esecuzioni, selezionare le esecuzioni da confrontare e avviare il processo.

  1. Selezionare due o più esecuzioni nella pagina dei dettagli di valutazione.
  2. Selezionare Confronta.

Viene visualizzata una visualizzazione di confronto affiancata per tutte le esecuzioni selezionate.

Il confronto usa test t statistici, che offre risultati più sensibili e affidabili per prendere decisioni. È possibile usare diverse funzionalità di questa funzionalità:

  • Confronto tra baseline: impostando un'esecuzione di base, è possibile identificare un punto di riferimento in base al quale confrontare le altre esecuzioni. È possibile vedere come ogni esecuzione devia dallo standard scelto.
  • Valutazione statistica del test t: ogni cella fornisce i risultati stat-sig con codici di colore diversi. È anche possibile passare il puntatore del mouse sulla cella per ottenere le dimensioni del campione e il valore p.
Leggenda Definizione
MiglioramentoStrong Altamente statisticamente significativo (p<=0.001) e si è spostato nella direzione prevista
Miglioramento Debole Stat-sig (0.001<p<=0.05) e spostato nella direzione desiderata
DegradedStrong Altamente statisticamente significativo (p<=0.001) e indirizzato nella direzione sbagliata
Indebolito Degradato Stat-sig (0.001<p<=0.05) e spostato nella direzione sbagliata
ChangedStrong Altamente significativo dal punto di vista statistico (p<=0.001) e la direzione desiderata è neutra
ChangedWeak Stat-sig (0.001<p<=0.05) e la direzione desiderata è neutra
Non conclusivo Troppo pochi esempi o p>=0.05

Nota

La visualizzazione di confronto non viene salvata. Se si lascia la pagina, è possibile deselezionare nuovamente le esecuzioni e selezionare Confronta per rigenerare la visualizzazione.

Informazioni sulle metriche di valutazione predefinite

Comprendere le metriche predefinite è essenziale per valutare le prestazioni e l'efficacia dell'applicazione di intelligenza artificiale. Apprendendo questi strumenti di misurazione chiave, è possibile interpretare i risultati, prendere decisioni informate e ottimizzare l'applicazione per ottenere risultati ottimali.

Per altre informazioni, vedere Analizzatori predefiniti.

Risoluzione dei problemi

Sintomo Possibile causa Azione
Il processo rimane in sospeso Alta carico di servizio o lavori in coda Aggiornare, verificare la quota e inviare di nuovo se prolungato
Metriche mancanti Non selezionato al momento della creazione Rieseguire e selezionare le metriche necessarie
Tutte le metriche di sicurezza zero Categoria disabilitata o modello non supportata Confermare il supporto del modello e del valutatore nei valutatori di rischio e sicurezza
Messa a terra inaspettatamente bassa Recupero/contesto incompleto Verificare la latenza di costruzione/recupero del contesto