Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questo articolo illustra come:
- Individuare e aprire le esecuzioni di valutazione.
- Visualizzare le metriche aggregate e a livello di esempio.
- Confrontare i risultati tra diverse esecuzioni.
- Interpretare le categorie e i calcoli delle metriche.
- Risolvere i problemi relativi alle metriche mancanti o parziali.
Prerequisiti
- Ruolo di Utente Azure AI nel progetto Foundry. Per altre informazioni, vedere Controllo degli accessi in base al ruolo per Microsoft Foundry.
- Esecuzione di valutazione completata.
- Per eseguire valutazioni nel portale, vedere Valutare modelli e applicazioni di intelligenza artificiale generativi.
- Per eseguire valutazioni dall'SDK, vedere Eseguire valutazioni dall'SDK o Valutare gli agenti di intelligenza artificiale.
Visualizzare i risultati della valutazione
Nel portale di Foundry passare al progetto e selezionare Valutazione nel riquadro sinistro.
Selezionare un'esecuzione di valutazione dall'elenco per aprire la relativa pagina dei dettagli. Se l'esecuzione è ancora in corso, lo stato mostra Running e si aggiorna automaticamente al termine.
La pagina dei dettagli mostra:
Campo Descrizione Nome Nome dell'esecuzione della valutazione. Obiettivo Modello o agente valutato. Dataset Set di dati di test usato. Selezionare l'icona di download per esportarla come file CSV. Stato Stato corrente dell'esecuzione (In esecuzione, Completato o Non riuscito). Token di valutazione Token utilizzati dagli analizzatori durante l'esecuzione. Token di destinazione Token utilizzati dal modello o dall'agente da valutare. Punteggi Punteggio aggregato per ogni analizzatore usato. Passare il puntatore del mouse su una cella del punteggio per visualizzare i dettagli di utilizzo dei token e un contesto aggiuntivo.
Selezionare Altre informazioni sulle metriche per visualizzare le definizioni delle metriche e le formule di assegnazione dei punteggi.
Dettagli dell'esecuzione della valutazione
Selezionare il nome del run per visualizzare i risultati a livello di riga per ogni singola query. Per ogni riga, puoi vedere la query, la risposta, la verità di base, il punteggio del valutatore e la spiegazione del punteggio.
Confrontare i risultati della valutazione
Per confrontare due o più esecuzioni, selezionare le esecuzioni da confrontare e avviare il processo.
- Selezionare due o più esecuzioni nella pagina dei dettagli di valutazione.
- Selezionare Confronta.
Viene visualizzata una visualizzazione di confronto affiancata per tutte le esecuzioni selezionate.
Il confronto usa test t statistici, che offre risultati più sensibili e affidabili per prendere decisioni. È possibile usare diverse funzionalità di questa funzionalità:
- Confronto tra baseline: impostando un'esecuzione di base, è possibile identificare un punto di riferimento in base al quale confrontare le altre esecuzioni. È possibile vedere come ogni esecuzione devia dallo standard scelto.
- Valutazione statistica del test t: ogni cella fornisce i risultati stat-sig con codici di colore diversi. È anche possibile passare il puntatore del mouse sulla cella per ottenere le dimensioni del campione e il valore p.
| Leggenda | Definizione |
|---|---|
| MiglioramentoStrong | Altamente statisticamente significativo (p<=0.001) e si è spostato nella direzione prevista |
| Miglioramento Debole | Stat-sig (0.001<p<=0.05) e spostato nella direzione desiderata |
| DegradedStrong | Altamente statisticamente significativo (p<=0.001) e indirizzato nella direzione sbagliata |
| Indebolito Degradato | Stat-sig (0.001<p<=0.05) e spostato nella direzione sbagliata |
| ChangedStrong | Altamente significativo dal punto di vista statistico (p<=0.001) e la direzione desiderata è neutra |
| ChangedWeak | Stat-sig (0.001<p<=0.05) e la direzione desiderata è neutra |
| Non conclusivo | Troppo pochi esempi o p>=0.05 |
Nota
La visualizzazione di confronto non viene salvata. Se si lascia la pagina, è possibile deselezionare nuovamente le esecuzioni e selezionare Confronta per rigenerare la visualizzazione.
Informazioni sulle metriche di valutazione predefinite
Comprendere le metriche predefinite è essenziale per valutare le prestazioni e l'efficacia dell'applicazione di intelligenza artificiale. Apprendendo questi strumenti di misurazione chiave, è possibile interpretare i risultati, prendere decisioni informate e ottimizzare l'applicazione per ottenere risultati ottimali.
Per altre informazioni, vedere Analizzatori predefiniti.
Risoluzione dei problemi
| Sintomo | Possibile causa | Azione |
|---|---|---|
| Il processo rimane in sospeso | Alta carico di servizio o lavori in coda | Aggiornare, verificare la quota e inviare di nuovo se prolungato |
| Metriche mancanti | Non selezionato al momento della creazione | Rieseguire e selezionare le metriche necessarie |
| Tutte le metriche di sicurezza zero | Categoria disabilitata o modello non supportata | Confermare il supporto del modello e del valutatore nei valutatori di rischio e sicurezza |
| Messa a terra inaspettatamente bassa | Recupero/contesto incompleto | Verificare la latenza di costruzione/recupero del contesto |