Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
L'affinamento delle rubriche in Copilot Studio Kit consente di creare, testare e migliorare in modo iterativo gli standard di valutazione riutilizzabili (rubriche) per le risposte generate dall'intelligenza artificiale. Questa funzionalità consente di garantire che la classificazione dell'intelligenza artificiale delle risposte dell'agente sia allineata con il giudizio umano e gli standard di qualità dell'organizzazione.
Valutazione dell'agente e giudici di intelligenza artificiale
Un giudice di intelligenza artificiale è un modello LLM (Large Language Model) che valuta la qualità delle risposte dell'agente applicando una rubrica definita dall'utente. Il giudice di intelligenza artificiale simula ciò che fa un analizzatore umano durante la valutazione della qualità della risposta, ma funziona automaticamente e su larga scala.
L'accuratezza della sua classificazione dipende interamente dal modo in cui la griglia di valutazione rispecchia i tuoi standard di qualità. Senza un modo sistematico per perfezionare i criteri di valutazione, le organizzazioni faticano a:
- Definire standard di valutazione chiari e specifici del dominio
- Confrontare la classificazione dell'intelligenza artificiale con le aspettative umane
- Identificare dove le istruzioni rubriche non riescono a acquisire i criteri di qualità previsti
- Creare attendibilità negli output di valutazione di intelligenza artificiale per casi d'uso aziendali critici
Il perfezionamento delle rubriche risolve queste sfide fornendo un flusso di lavoro iterativo che porta l'intelligenza artificiale in allineamento con il giudizio umano.
Vantaggi
- Standard di valutazione riutilizzabili: definire le rubriche una sola volta e riutilizzarle tra più agenti e esecuzioni di test.
- Allineamento con il giudizio umano: ridurre sistematicamente il disallineamento tra intelligenza artificiale e classificatori umani.
- Garanzia di qualità: stabilire asset aziendali durevoli che codificano gli standard di qualità dell'organizzazione.
- Attendibilità nella valutazione dell'intelligenza artificiale: creare fiducia nella classificazione automatizzata tramite perfezionamento iterativo trasparente.
Rubriche come standard di valutazione
Una rubrica è un set strutturato di istruzioni di gradazione in linguaggio naturale usate da un giudice di intelligenza artificiale per valutare la qualità della risposta di un agente. Un insieme di criteri di valutazione include:
- Descrizione di "che cosa sembra una buona risposta"
- Definizioni di grado per una scala a 5 punti (ad esempio 5 per esemplare, 1 per miglioramento delle esigenze)
- Esempi facoltativi validi e negativi che illustrano gli standard di qualità
Classificazione dell'intelligenza artificiale e classificazione umana
- Classificazione dell'intelligenza artificiale: un giudice di intelligenza artificiale (LLM) usa la rubrica per valutare le risposte. Genera un grado (1-5) e una logica che ne spiega la valutazione.
- Valutazione umana: un analizzatore umano (creatore) valuta le stesse risposte. Forniscono il proprio grado (1-5) e giustificazione.
- Confronto: confrontando queste due valutazioni, si identifica la posizione in cui la rubrica necessita di perfezionamento.
Allineamento e disallineamento
- Allineamento: quando il grado di intelligenza artificiale corrisponde al livello umano, la rubrica funziona come previsto.
- Disallineamento: quando il grado di intelligenza artificiale è diverso dal grado umano, la rubrica necessita di miglioramento.
Processo di perfezionamento iterativo
Il perfezionamento delle rubriche è un processo iterativo. Segui questi passaggi:
- Definire una rubrica iniziale con i criteri di valutazione.
- Eseguire test usando la rubrica per generare voti di intelligenza artificiale.
- Esaminare le risposte dell'agente e fornire valutazioni umane.
- Confrontare l'intelligenza artificiale e le valutazioni umane per identificare il disallineamento.
- Contrassegnare esempi buoni e cattivi per guidare il perfezionamento.
- Perfezionare la rubrica usando l'analisi basata su intelligenza artificiale dei modelli di disallineamento.
- Eseguire di nuovo i test con la rubrica aggiornata.
- Ripetere finché l'allineamento è accettabile.
Obiettivo primario
L'obiettivo del perfezionamento delle rubriche non è ottenere tutte le risposte classificate come 5 (esemplare). L'obiettivo è ridurre al minimo l'allineamento tra intelligenza artificiale e classificatori umani.
L'ottimizzazione della risposta, migliorando effettivamente la qualità delle risposte dell'agente, avviene in Copilot Studio stesso. Il perfezionamento delle rubriche è incentrato esclusivamente sulla garanzia che i criteri di valutazione riflettano accuratamente il giudizio umano, in modo da poter considerare attendibili i risultati di classificazione automatizzati.
Modalità di utilizzo della rubrica
Le rubriche in Copilot Studio Kit servono due scopi distinti:
Modalità di test (livello test case)
- Scopo: automazione di test regolare con criteri di classificazione personalizzati.
- Configurazione: assegnare la rubrica a livello di singolo caso di test.
- Caso d'uso: controllo di qualità continuo per i test case di risposta generativi.
- Pass/fail: grade è maggiore o uguale alla soglia di grado superato (impostazione predefinita: 5).
Modalità di perfezionamento (livello di esecuzione dei test)
- Scopo: perfezionare in modo iterativo e migliorare la rubrica stessa.
- Configurazione: assegnare la rubrica a livello di esecuzione del test.
-
Caso d'uso: flusso di lavoro di perfezionamento delle rubriche dedicate.
- Pass/fail: Il voto di superamento è solo informativo. L'obiettivo è l'allineamento, non il superamento dei punteggi.
- Differenza chiave: l'intelligenza artificiale fornisce una logica dettagliata (più costosa) per supportare l'analisi.
Chi dovrebbe usare l'affinamento delle rubriche di valutazione?
L'affinamento delle griglie di valutazione è ideale per:
- Team di controllo della qualità: stabilire standard di valutazione coerenti tra gli agenti.
- Maker: creare test automatizzati affidabili usando risposte di risposta generative.
- Organizzazioni aziendali: definire standard di qualità dell'organizzazione specifici del dominio.
- Chiunque cerchi fiducia nella valutazione dell'IA: Teams che ha bisogno di fiducia nella classificazione automatizzata per i casi d'uso critici.
Che cos'è incluso in questa versione?
- Gestione completa della rubrica (creazione, visualizzazione, modifica, duplicata, eliminazione).
- Assegnazione rubrica a livello di esecuzione del test (per perfezionamento) e livello di test case (per i test).
- Passaggio della selezione del grado con chiara differenziazione tra le modalità di test e perfezionamento.
- Due visualizzazioni di perfezionamento: Standard (gradi di intelligenza artificiale nascosti per evitare distorsioni) e Full (gradi di intelligenza artificiale visibili).
- Visualizzazione dettagliata per la classificazione di risposte più lunghe.
- Possibilità di contrassegnare i test case come esempi validi o negativi.
- Perfezionamento delle rubriche basate sull'intelligenza artificiale in base all'analisi dell'allineamento.
- Opzioni salva e salva con nome per salvare le versioni delle rubriche.
- Supporto per il flusso di lavoro di perfezionamento iterativo.
Elementi pianificati per le versioni future
- Generare automaticamente set di test dalle trascrizioni della conversazione.
- Diagnostica e analisi migliorate.
- Governance delle rubriche (approvazioni, ciclo di vita, pubblicazione).
- Miglioramento dell'interfaccia di perfezionamento delle rubriche dedicate.
Inizia subito
Per cominciare a utilizzare l'affinamento delle rubriche:
- Creare una rubrica che definisce gli standard di qualità.
- Preparare i casi di test con i tipi di test Generative Answer.
- Configurare un'esecuzione di test per il perfezionamento delle rubriche.
- Seguire il flusso di lavoro di perfezionamento della rubrica per allineare l'intelligenza artificiale al giudizio umano.