Vedere i risultati della valutazione nel portale di Microsoft Foundry (versione classica)

Visualizzazione attuale:Versione del portale Foundry (versione classica) - Passa alla versione per il nuovo portale Foundry

In questo articolo si apprenderà come:

  • Individuare e aprire le esecuzioni di valutazione.
  • Visualizzare le metriche aggregate e a livello di esempio.
  • Confrontare i risultati tra diverse esecuzioni.
  • Interpretare le categorie e i calcoli delle metriche.
  • Risolvere i problemi relativi alle metriche mancanti o parziali.

Prerequisiti

Visualizzare i risultati della valutazione

Dopo aver inviato una valutazione, trova l'esecuzione sulla pagina Valutazione. Filtrare o modificare le colonne per concentrarsi sulle esecuzioni di tuo interesse. Rivedere le metriche di alto livello con una rapida occhiata prima di approfondire.

Suggerimento

È possibile visualizzare un'esecuzione di valutazione con qualsiasi versione dell'SDK promptflow-evals o azure-ai-evaluation delle versioni 1.0.0b1, 1.0.0b2, 1.0.0b3. Abilita l'opzione Mostra tutte le esecuzioni per individuare l'esecuzione.

Selezionare Altre informazioni sulle metriche per definizioni e formule.

Screenshot che mostra i dettagli delle metriche di valutazione.

Seleziona una sessione per aprire i dettagli (set di dati, tipo di attività, prompt, parametri) oltre alle metriche per campione. Il dashboard delle metriche visualizza la frequenza di passaggio o il punteggio di aggregazione per metrica.

Attenzione

Gli utenti che in precedenza gestivano le distribuzioni del modello ed eseguivano valutazioni utilizzando oai.azure.com, e successivamente hanno effettuato l'onboarding sulla piattaforma per sviluppatori Microsoft Foundry, hanno queste limitazioni quando usano ai.azure.com:

  • Questi utenti non possono visualizzare le valutazioni create tramite l'API OpenAI Azure. Per visualizzare queste valutazioni, è necessario tornare a oai.azure.com.
  • Questi utenti non possono usare l'API OpenAI Azure per eseguire valutazioni all'interno di Foundry. Devono invece continuare a usare oai.azure.com per questa attività. Tuttavia, possono usare gli analizzatori OpenAI Azure disponibili direttamente in Foundry (ai.azure.com) nell'opzione per la creazione della valutazione del set di dati. L'opzione per la valutazione del modello ottimizzata non è supportata se la distribuzione è una migrazione da Azure OpenAI a Foundry.

Per lo scenario di caricamento del set di dati e bring your own storage, esistono alcuni requisiti di configurazione:

  • L'autenticazione dell'account deve essere Microsoft Entra ID.
  • L'archiviazione deve essere aggiunta all'account. L'aggiunta al progetto causa errori del servizio.
  • Gli utenti devono aggiungere il progetto all'account di archiviazione tramite il controllo di accesso nel portale di Azure.

Per altre informazioni sulla creazione di valutazioni con i classificatori di valutazione OpenAI nel Azure hub OpenAI, vedere Come usare Azure OpenAI nella valutazione dei modelli Foundry.

Dashboard delle metriche

Nella sezione Dashboard metrica le visualizzazioni aggregate vengono suddivise in base alle metriche che includono la qualità dell'intelligenza artificiale (intelligenza artificiale assistita), i rischi e la sicurezza (anteprima), la qualità dell'intelligenza artificiale (NLP) e personalizzata (se applicabile). I risultati vengono misurati come percentuali di superamento/esito negativo in base ai criteri selezionati al momento della creazione della valutazione. Per informazioni più approfondite sulle definizioni delle metriche e sul modo in cui vengono calcolate, vedere Analizzatori predefiniti.

  • Per le metriche di qualità dell'intelligenza artificiale (AI Assisted), i risultati vengono aggregati mediando tutti i punteggi per metrica. Se si usa Groundedness Pro, l'output è binario e il punteggio aggregato è il tasso di superamento: (#trues / #instances) × 100. Screenshot che mostra la scheda Dashboard delle metriche di qualità dell'intelligenza artificiale (AI Assisted).
  • Per le metriche rischio e sicurezza (anteprima), i risultati vengono aggregati in base alla percentuale di difetti.
    • Danno al contenuto: percentuale di istanze che superano la soglia di gravità (impostazione predefinita Medium).
    • Per il materiale protetto e l'attacco indiretto, il tasso di difetti viene calcolato come percentuale delle istanze in cui l'output è true, utilizzando la formula (Defect Rate = (#trues / #instances) × 100). Screenshot che mostra la scheda dashboard delle metriche di rischio e sicurezza.
  • Per le metriche di qualità dell'intelligenza artificiale (NLP), i risultati vengono aggregati in base alla media dei punteggi per metrica. Screenshot che mostra la scheda Dashboard di qualità dell'intelligenza artificiale (NLP).

Tabella dei risultati delle metriche dettagliata

Usare la tabella sotto il dashboard per esaminare ogni esempio di dati. Ordinare in base a una metrica per visualizzare campioni con prestazioni peggiori e identificare lacune sistematiche (risultati non corretti, errori di sicurezza, latenza). Utilizzare la ricerca per raggruppare in cluster gli argomenti correlati ai guasti. Applicare la personalizzazione delle colonne per concentrarsi sulle metriche chiave.

Azioni tipiche:

  • Filtrare i punteggi bassi per rilevare modelli ricorrenti.
  • Regolare le richieste o ottimizzare quando vengono visualizzati gap sistemici.
  • Esportazione per l'analisi offline.

Ecco alcuni esempi dei risultati delle metriche per lo scenario di risposta alle domande:

Screenshot che mostra i risultati delle metriche per lo scenario di risposta alle domande.

Alcune valutazioni hanno sottovalutatori, che consentono di visualizzare il codice JSON dei risultati delle sottovalutazioni. Per visualizzare i risultati, selezionare Visualizza in JSON.

Screenshot che mostra i risultati dettagliati delle metriche con JSON selezionato.

Visualizzare il codice JSON nell'anteprima JSON:

Screenshot che mostra l'anteprima JSON.

Ecco alcuni esempi dei risultati delle metriche per lo scenario di conversazione. Per esaminare i risultati in una conversazione a più turni, selezionare Visualizza i risultati di valutazione a turno nella colonna Conversazione .

Screenshot che mostra i risultati delle metriche per lo scenario di conversazione.

Quando si seleziona Visualizza risultati di valutazione a turno, viene visualizzata la schermata seguente:

Screenshot che mostra i risultati della valutazione per turno.

Per una valutazione della sicurezza in uno scenario multi modale (testo e immagini), è possibile comprendere meglio il risultato della valutazione esaminando le immagini sia dall'input che dall'output nella tabella dei risultati delle metriche dettagliate. Poiché la valutazione multi modale è attualmente supportata solo per gli scenari di conversazione, è possibile selezionare Visualizza risultati di valutazione a turno per esaminare l'input e l'output per ogni turno.

Schermata che mostra la finestra di dialogo immagine dalla colonna di conversazione.

Selezionare l'immagine da espandere e visualizzarla. Per impostazione predefinita, tutte le immagini sono sfocate per proteggerti da contenuti potenzialmente dannosi. Per visualizzare chiaramente l'immagine, attivare l'interruttore Controlla sfocatura immagine .

Screenshot che mostra un'immagine sfocata e l'interruttore per verificare la sfocatura dell'immagine.

I risultati della valutazione possono avere significati diversi per gruppi di destinatari diversi. Ad esempio, le valutazioni di sicurezza potrebbero generare un'etichetta per gravità bassa del contenuto violento che potrebbe non essere allineato alla definizione di un revisore umano del livello di gravità di tale contenuto violento specifico. Il punteggio minimo per superare l'esame impostato durante la creazione della valutazione determina se viene assegnato un superato o un fallimento. È disponibile una colonna Feedback umano in cui è possibile selezionare un'icona a forma di pollice verso l'alto o verso il basso mentre si esaminano i risultati della valutazione. È possibile usare questa colonna per registrare le istanze approvate o contrassegnate come non corrette da un revisore umano.

Screenshot che mostra i risultati delle metriche di rischio e sicurezza con feedback umano.

Per comprendere ogni metrica del rischio di contenuto, visualizzare le definizioni delle metriche nella sezione Report o esaminare il test nella sezione Dashboard metrica .

In caso di problemi con l'esecuzione, è anche possibile usare i log per effettuare il debug della valutazione. Ecco alcuni esempi di log che è possibile usare per eseguire il debug dell'esecuzione della valutazione:

Screenshot che mostra i log che è possibile usare per eseguire il debug dell'esecuzione della valutazione.

Se si sta valutando un flusso di richiesta, è possibile selezionare il pulsante Visualizza nel flusso per passare alla pagina del flusso valutato e aggiornare il flusso. Ad esempio, è possibile aggiungere istruzioni aggiuntive per il prompt dei metadati o modificare alcuni parametri e rivalutare.

Confrontare i risultati della valutazione

Per confrontare due o più esecuzioni, selezionare le esecuzioni desiderate e avviare il processo. Selezionare il pulsante Confronta o il pulsante Passa alla visualizzazione dashboard per una visualizzazione dashboard dettagliata. Analizzare e confrontare le prestazioni e i risultati di più esecuzioni per prendere decisioni informate e miglioramenti mirati.

Screenshot che mostra l'opzione per confrontare le valutazioni.

Nella visualizzazione dashboard è possibile accedere a due componenti importanti: il grafico di confronto della distribuzione delle metriche e la tabella di confronto. È possibile usare questi strumenti per eseguire un'analisi side-by-side delle esecuzioni di valutazione selezionate. È possibile confrontare vari aspetti di ogni campione di dati con facilità e precisione.

Nota

Per impostazione predefinita, le esecuzioni di valutazione precedenti hanno righe corrispondenti tra le colonne. Tuttavia, le valutazioni appena eseguite devono essere configurate intenzionalmente per avere colonne corrispondenti durante la creazione della valutazione. Verificare che lo stesso nome venga usato come valore Nome criteri in tutte le valutazioni da confrontare.

Lo screenshot seguente mostra i risultati quando i campi sono uguali:

Screenshot che mostra valutazioni automatizzate quando i campi sono uguali.

Quando un utente non usa lo stesso nome criteri nella creazione della valutazione, i campi non corrispondono, il che fa sì che la piattaforma non sia in grado di confrontare direttamente i risultati:

Screenshot che mostra valutazioni automatizzate quando i campi non sono uguali.

Nella tabella di confronto, passa il mouse sull'esecuzione che desideri usare come punto di riferimento e impostalo come baseline. Attivare l'interruttore Mostra delta per visualizzare le differenze tra la linea di base e altre esecuzioni per i valori numerici. Selezionare l'interruttore Mostra solo differenza per visualizzare solo le righe che differiscono tra le esecuzioni selezionate, consentendo di identificare le varianti.

Usando queste funzionalità di confronto, è possibile prendere una decisione informata per selezionare la versione migliore:

  • Confronto tra baseline: impostando un'esecuzione di base, è possibile identificare un punto di riferimento in base al quale confrontare le altre esecuzioni. È possibile vedere come ogni esecuzione devia dallo standard scelto.
  • Valutazione numerica dei valori: l'abilitazione dell'opzione Mostra delta consente di comprendere l'entità delle differenze tra la baseline e altre esecuzioni. Queste informazioni possono aiutarti a valutare le performance delle varie esecuzioni in base a metriche di valutazione specifiche.
  • Isolamento differenza: la funzionalità Mostra solo differenza semplifica l'analisi evidenziando solo le aree in cui sono presenti discrepanze tra le esecuzioni. Queste informazioni possono essere fondamentali per individuare dove sono necessari miglioramenti o regolazioni.

Usare gli strumenti di confronto per scegliere la configurazione con prestazioni migliori ed evitare regressioni in sicurezza o a terra.

Screenshot che mostra i risultati della valutazione side-by-side.

Misurare la vulnerabilità di jailbreak

La valutazione della vulnerabilità di jailbreak è una misurazione comparativa, non una metrica assistita dall'intelligenza artificiale. Eseguire valutazioni su due set di dati testati in ambiente avverso: un set di dati di test avversario di base rispetto allo stesso set di dati di test avversario con iniezioni di jailbreak nel primo ciclo. È possibile usare il simulatore di dati antagonisti per generare il set di dati con o senza iniezioni di jailbreak. Assicurarsi che il valore Nome criteri sia lo stesso per ogni metrica di valutazione quando si configurano le esecuzioni.

Per verificare se la tua applicazione è vulnerabile al jailbreak, specifica la linea di base e attiva l'opzione tassi di difettosità del jailbreak nella tabella di confronto. La percentuale di difetti di jailbreak è la percentuale di istanze nel set di dati di test in cui un'iniezione di jailbreak genera un punteggio di gravità superiore per qualsiasi metrica di rischio del contenuto rispetto a una baseline nell'intero set di dati. Selezionare più valutazioni nel dashboard Confronta per visualizzare la differenza nei tassi di difetto.

Screenshot dei risultati della valutazione comparata con il difetto di jailbreak attivato.

Suggerimento

Il tasso di difetto di jailbreak viene calcolato solo per i set di dati delle stesse dimensioni e quando tutte le esecuzioni includono metriche di rischio e sicurezza del contenuto.

Informazioni sulle metriche di valutazione predefinite

Comprendere le metriche predefinite è essenziale per valutare le prestazioni e l'efficacia dell'applicazione di intelligenza artificiale. Apprendendo questi strumenti di misurazione chiave, è possibile interpretare i risultati, prendere decisioni informate e ottimizzare l'applicazione per ottenere risultati ottimali.

Per altre informazioni, vedere Analizzatori predefiniti.

Risoluzione dei problemi

Sintomo Possibile causa Azione
Il processo rimane in sospeso Alta carico di servizio o lavori in coda Aggiornare, verificare la quota e inviare di nuovo se prolungato
Metriche mancanti Non selezionato al momento della creazione Rieseguire e selezionare le metriche necessarie
Tutte le metriche di sicurezza zero Categoria disabilitata o modello non supportata Conferma la matrice di supporto per il modello e la metrica
Messa a terra inaspettatamente bassa Recupero/contesto incompleto Verificare la latenza di costruzione/recupero del contesto

Informazioni su come valutare le applicazioni di intelligenza artificiale generative: