Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Microsoft Copilot Studio dispone di uno strumento di valutazione che consente test automatizzati per la qualità dell'output della risposta dell'agente. A differenza dei test nel riquadro chat, lo strumento di valutazione dell'agente esegue set di test ripetibili basati su scenari usando profili utente diversi senza richiedere il test manuale di ogni richiesta. Altre informazioni sullo strumento di valutazione.
Come iniziare:
- Per iniziare, acquisire informazioni sulle valutazioni come processo e set di competenze
- Altre informazioni su come creare una strategia di valutazione personalizzata per l'agente Self-Service dipendente
- Iniziare quindi a usare strumenti di valutazione, set di test e informazioni su come misurare parti diverse dell'esperienza employee Self-Service
Nota
- Lo strumento di valutazione non può ancora esaminare il contenuto all'interno di schede adattive.
- Lo strumento di valutazione non misura la latenza o la velocità di risposta dell'agente.
- È necessario modificare l'accesso a Copilot Studio per eseguire i test. I risultati dei test possono essere condivisi con utenti che non hanno accesso a Copilot Studio esportando i risultati del test.
Perché investire in valutazioni per l'agente?
Le valutazioni degli agenti, chiamate anche evals, sono un nuovo modo per misurare il comportamento e la risposta di un agente generativo quando usa le conoscenze e i dati dell'organizzazione per rispondere alle domande dei dipendenti. Interrompere l'individuazione e iniziare a valutare la qualità delle risposte degli agenti usando lo strumento di valutazione Copilot Studio per assicurarsi che siano allineati ai criteri hr, rispettare il contesto utente, ad esempio ruolo e area geografica, e mantenere il dipendente e l'organizzazione disinformazioni in forma sicura. Creare una strategia di valutazione chiara che includa query golden, set di test strutturati e un processo per la revisione dei risultati. Usare le informazioni apprese dai risultati dei test per migliorare la qualità della risposta affinando le istruzioni dell'agente, modificando i trigger degli argomenti e aggiornando le origini conoscenze.
- Ottenere un quadro più chiaro del modo in cui l'agente Self-Service dipendente risponde e gestisce determinati scenari.
- Distribuire più velocemente con meno rischi convalidando le modifiche prima dell'ambiente di produzione.
- Migliorare l'accuratezza e la rilevanza usando un punteggio di qualità coerente e a terra.
- Evitare regressioni causate da richieste, modelli o modifiche della configurazione.
- Risparmiare tempo di controllo di qualità manuale tramite la generazione e la valutazione automatizzate del set di dati.
- Aumentare la fiducia dei dipendenti con risposte più coerenti, complete e corrette.
- Supportare la governance e la conformità con procedure di valutazione verificabili, ripetibili e oggettive.
Le valutazioni consentono di rispondere:
- Questa esperienza soddisfa le esigenze dei dipendenti?
- Le conoscenze, i dati e le qualità conversazionali si uniscono in modo da deviare effettivamente i biglietti e migliorare l'esperienza dei dipendenti?
- Le risposte formano l'agente riflettono il giusto livello di accuratezza, completezza e rilevanza per creare fiducia e incoraggiare l'adozione degli utenti?
Differenze tra le procedure di controllo della qualità tradizionali e le valutazioni LLM
Domande di controllo di qualità tradizionali: Il sistema funzionava? Controlla se il software si comporta esattamente come programmato, rileva bug e arresti anomali e usa controlli manuali o con script.
Evals chiede: La risposta è stata abbastanza buona, abbastanza sicura e abbastanza utile? Verifica se un sistema di intelligenza artificiale si comporta in modo accettabile in molti possibili risultati, testa scenari utente reali e usa set di test riutilizzabili automatizzati.
- Il controllo di qualità controlla se l'agente ha risposto
- Verifica se la risposta è stata *utile
Esempi
Di seguito sono riportati alcuni esempi che illustrano la differenza tra le valutazioni QA e LLM.
| Approccio | Focus |
|---|---|
| Controllo di qualità tradizionale | Funzionalità di sistema |
| Valutazioni LLM | Qualità e utilità della risposta |
Scenario: Un dipendente pone una domanda comune sul libro paga
Richiesta utente: "Perché la mia paga netta è inferiore questo mese?"
Risposta di esempio di controllo di qualità tradizionale:
"La retribuzione netta è inferiore a causa delle deduzioni. Per maggiori dettagli, controllare la distinta paga."
Dal punto di vista del controllo di qualità tradizionale, questa risposta ha un aspetto corretto:
- Il sistema non si è arrestato in modo anomalo
- Rendering corretto della risposta
- Non sono stati generati errori
- L'agente ha restituito una risposta
- Nulla ha violato una regola dura
Il problema con una risposta come questa è che non aiuta a impedire la creazione dei ticket e non aumenta la soddisfazione dei dipendenti.
Risposta di qualità superiore:
"La retribuzione netta è inferiore perché le deduzioni vengono reimpostate all'inizio dell'anno civile. Ottenere altri dettagli nell'hub dei dipendenti per controllare l'ultimo paystub."
Questa risposta:
- Risponde alla domanda reale
- Aiuta il dipendente self-service
- Riduce i ticket di supporto
- Allinea al comportamento dei criteri per le retribuzioni
Questa risposta è molto più utile e consente all'utente di risolvere il problema. Le valutazioni consentono di misurare la distanza tra la risposta effettiva dell'agente e la risposta prevista ideale per scenari specifici, in modo da poter apportare miglioramenti all'agente per ottenere determinati risultati aziendali. Un altro esempio:
Richiesta utente: "Qual è il mio stipendio base?"
Risposta di esempio di controllo di qualità tradizionale:
"Il tuo stipendio di base è reperibile in Workday."
Risposta di qualità superiore:
"Il tuo stipendio base è $ 155,000 USD. Altre informazioni sulle retribuzioni sono disponibili nell'hub dei dipendenti.
Considerare le valutazioni degli agenti come un programma
Quando si inizia a valutare le risposte degli agenti, considerare il test come un programma, non come un'attività una tantum. Sono necessari ruoli chiari, responsabilità definite e un ciclo di vita ripetibile in modo che le persone giuste esaminino i risultati, approvano le modifiche, implementino modifiche ed eseguire nuovamente i test nel tempo. Questa struttura consente di migliorare la qualità in modo coerente, di adattarla a nuovi scenari e di confrontare le prestazioni tra i modelli LLM senza conseguenze impreviste.
Ruoli e responsabilità
Organizzazione dei principi
Nelle distribuzioni aziendali non tutti possono modificare l'agente, molti team possiedono criteri e rischi, i dati sensibili dei dipendenti sono coinvolti e le decisioni devono essere controllabili e difendibili. Organizzare le persone in modo che: rispetti i limiti di accesso Copilot Studio, consenta a molti revisori senza molti editor, crei una chiara responsabilità, supporti controlli e verifiche di conformità e impedisca modifiche non approvate al contenuto sensibile.
TLDR: People più vicino ai risultati della verifica dei criteri. People più vicino alla piattaforma applicare le modifiche.
Team responsabili
| Team | Responsabilità | Ruolo nelle evals |
|---|---|---|
| Proprietario dell'agente (CENTRAL IT, Digital Workplace, Copilot Studio maker) | È proprietario della configurazione dell'agente ESS. Esegue valutazioni e gestisce l'esecuzione dei test. Applica le modifiche approvate. Mantiene la cadenza di valutazione. | L'unico ruolo con mani sui controlli, funge da braccio di esecuzione. |
| Proprietario del programma di valutazione (Product Manager, responsabile della piattaforma) | Definisce il significato di buona qualità. Imposta gli obiettivi di valutazione. Decide le classificazioni degli scenari. Possiede la strategia di valutazione nel tempo. | Senza questo ruolo, le valutazioni diventano tattiche e incoerenti. |
| Proprietari di dominio (risorse umane, retribuzioni, proprietari di servizi IT) | Esaminare i risultati della valutazione per il dominio. Convalidare la correttezza rispetto ai criteri reali. Approvare o rifiutare le modifiche. Contrassegna le lacune o le risposte non sicure. | La maggior parte degli errori ESS è specifica del dominio. I team centrali non possono eseguire la convalida da soli. |
| Revisori legali, privacy e conformità | Esaminare l'intelligenza artificiale responsabile e gli scenari sensibili. Convalidare i modelli di rifiuto. Approvare la copertura per gli argomenti ad alto rischio. Definire i requisiti di escalation. | Le valutazioni spesso eserci vano il rischio di criteri relativi alla compensazione e ai dati personali. |
| Stakeholder della sicurezza e della protezione dei dati | Convalidare che le valutazioni non espongono dati con restrizioni. Assicurarsi che gli ambienti seguano le regole di gestione dei dati. | Le valutazioni ESS toccano i dati aziendali reali: le misure di sicurezza devono essere esplicite. |
Funzionamento dei ruoli
- Il proprietario del programma di valutazione definisce gli elementi da testare
- Il proprietario dell'agente esegue valutazioni e raccoglie i risultati
- I proprietari di dominio esaminano gli errori rilevanti per le aree
- Legal/Privacy/Security specificano scenari ad alto rischio ed esaminano i risultati dei test
- Il proprietario dell'agente applica modifiche approvate per migliorare le risposte dell'agente
- Le valutazioni vengono rieseguite dopo aver apportato modifiche
Ciclo di vita delle valutazioni: quando valutare?
**Prima della distribuzione: obiettivo: avviare con attendibilità
- Verificare che gli scenari di base funzionino
- Rilevare le conoscenze mancanti, i connettori interrotti o le risposte non sicure in anticipo
- Stabilire una barra della qualità di base
- Concentrarsi su: Scenari principali che devono essere corretti, Scenari di intelligenza artificiale non risposta e responsabilità, differenze tra ruoli e aree geografiche
**Durante la personalizzazione e l'iterazione: obiettivo: migliorare la qualità man mano che l'agente si evolve
- Misurare l'impatto delle modifiche apportate a conoscenze, argomenti o flussi di lavoro
- Verificare che le correzioni migliorino effettivamente le risposte
- Evitare regressioni quando viene aggiunto nuovo contenuto
- Concentrarsi su: Varianti e casi perimetrali, nuovi scenari di personalizzazione, richieste con errori precedenti
**Dopo la distribuzione: obiettivo: mantenere la qualità nel tempo
- Le valutazioni diventano un sistema di avviso rapido invece di basarsi sui reclami degli utenti
- Rilevare le regressioni dopo gli aggiornamenti o le modifiche dei criteri
- Concentrarsi su: Scenari noti ad alto rischio o con volumi elevati, richieste di intelligenza artificiale sensibili e responsabili, scenari associati a KPI
**Ridimensionamento e ottimizzazione: obiettivo: dimostrare valore e guidare l'investimento
- Mostra dove l'agente ha buone prestazioni o ha bisogno di investimenti
- Collegare i miglioramenti qualitativi ai risultati aziendali
- Focus su: Copertura tra scenari e persone, gap qualitativi allineati agli indicatori KPI, alle esigenze degli utenti a coda lunga ed emergenti
Le fasi di base del ciclo di test
1. Iniziare misurando ciò che conta di più.
Iniziare con un piccolo set di test intenzionali invece di cercare di coprire tutto contemporaneamente. Scegliere scenari basati su attività critiche dei dipendenti, aree problematiche note, argomenti ad alto rischio (ad esempio pagamento, criteri di abbandono e scenari che richiedono dati dei dipendenti) e aree correlate ai risultati aziendali.
2. Eseguire il test per stabilire una linea di base.
Si supponga che la prima esecuzione riveli lacune. È consigliabile ricevere segnali chiari su dove le risposte sono deboli, dove i limiti di sicurezza non sono chiari e dove le aspettative non corrispondono al comportamento effettivo. Questa linea di base offre a tutti un punto di riferimento condiviso anziché basarsi su opinioni.
3. Sintetizzare i risultati, perché non tutti gli errori sono uguali.
Questo passaggio è il passaggio più importante. Chiedi cosa ti dicono gli errori. Cercare i modelli: l'agente è costantemente troppo vago? Si tratta di rispondere in modo eccessivo a domande sensibili? Gli errori sono concentrati in un dominio? Senza sintesi, le valutazioni perdono rapidamente credibilità.
4. Decidere cosa deve effettivamente cambiare.
La maggior parte delle modifiche si suddivide in tre categorie:
- **Un. L'agente deve cambiare: i risultati potrebbero mostrare lacune nella conoscenza, argomenti che non vengono attivati (o attivati in modo eccessivo) o dettagli del contesto utente mancanti, ad esempio ruolo e area geografica. Questi problemi richiedono in genere aggiornamenti a origini conoscenze, istruzioni dell'agente o progettazione di argomenti.
- **B. La risposta prevista deve cambiare: la risposta prevista potrebbe essere troppo restrittiva, non rafforzare il comportamento corretto o creare errori falsi da piccole differenze di formulazione.
- **C. I criteri di test devono essere modificati: il problema potrebbe essere il tipo di test, superare le soglie che non riflettono la qualità accettabile o i criteri che misurano la cosa sbagliata.
5. Eseguire l'iterazione attraverso alcuni cicli di miglioramento.
Loop: Eseguire -> Revisione -> Regola -> Riesegui. L'agente migliora, i test sono più precisi e il team crea una comprensione condivisa dell'aspetto positivo.
6. Il test si stabilizza.
Le risposte previste smettono di spostarsi. I criteri sono giusti. Gli errori diventano significativi anziché rumorosi. Il test diventa benchmark, passando, il che significa che l'esperienza soddisfa le aspettative concordate e gli stakeholder si fidano del risultato.
7. Usare il test stabilizzato per le regressioni.
Riutilizzare lo stesso test per: convalidare le modifiche prima dell'implementazione, rilevare le regressioni in anticipo, monitorare la qualità nel tempo e verificare la variazione della qualità tra i modelli LLM. La valutazione funge ora da binario di sicurezza.
Considerazioni sul processo per la strategia di valutazione
La configurazione di una strategia di valutazione non riguarda solo la scrittura di test case, ma anche la progettazione di un processo adatto alla forma, alla struttura e al modello di governance dell'organizzazione. Ogni azienda ha diversi modelli di proprietà, sistemi, criteri e flussi di revisione. Queste realtà cross-funzionali determinano come strutturare le query d'oro, chi esamina i risultati e come organizzare i set di test.
La sezione seguente elenca i modelli e le considerazioni più comuni per definire una strategia di valutazione adatta all'agente Self-Service dipendente e all'organizzazione in generale.
Struttura organizzativa e modello di proprietà
La maggior parte delle organizzazioni dispone di più sottodomini proprietari di argomenti diversi, ad esempio:
- HR: Vantaggi, compensi, mobilità, congedo, onboarding, relazioni con i dipendenti
- IT: identità & accesso, endpoint/dispositivo, software, rete, operazioni di supporto
Impatto della strategia:
- Creare set di test separati per dominio, ad esempio Benefit, Leave, IT Access, Devices e così via.
- Assegnare proprietari specifici del dominio per esaminare i risultati dei test.
- Usare l'assegnazione di tag o un csv separato. in modo che i risultati dei test possano essere indirizzati ai team giusti.
- Alcuni team richiedono la firma legale, delle operazioni delle risorse umane, della sicurezza IT o della conformità.
Complessità e integrazioni del sistema
Risorse umane e IT hanno più sistemi integrati (Workday, ServiceNow, strumenti per retribuzioni, viaggi, identità, gestione dei dispositivi). La qualità della risposta dipende spesso da chiamate del connettore accurate e dal routing di sistema corretto.
Impatto della strategia:
- Creare set di test specifici del sistema, ad esempio query del profilo Workday
- Definire le risposte previste che includono trigger e parametri dello strumento corretti.
- Eseguire test di regressione ogni volta che viene modificata la configurazione o le autorizzazioni di un sistema.
Variazione dei criteri tra aree e ruoli
Le aziende con forza lavoro globale hanno in genere regole diverse per le festività, le ferie, l'idoneità, i requisiti VPN, i sistemi di retribuzioni e il supporto dei dispositivi.
Impatto della strategia:
- Includere query d'oro specifiche dell'area (ad esempio, "Sono idoneo per il congedo parentale in Germania?").
- Usare le variabili di contesto utente (ruolo, area geografica) nel test per garantire che le risposte si adattino correttamente.
- Valutare "Scenari solo Stati Uniti" e così via, come set di test separati.
Differenze basate sui ruoli nelle autorizzazioni e nei flussi di lavoro
Manager, dipendenti, appaltatori e nuovi assunti spesso hanno passaggi e diritti diversi, che possono anche variare in base all'area.
Impatto della strategia:
- Creare set di test che combinano intenzionalmente i ruoli per esporre le lacune nella logica di personalizzazione.
- Convalidare i modelli di rifiuto per l'accesso limitato ("In qualità di terzista, non si ha accesso...").
- Includere flussi di lavoro specifici del manager (approvazioni, attività a livello di team).
Governance, conformità e tolleranza ai rischi
Settori più regolamentati come l'assistenza sanitaria, i servizi finanziari, enti pubblici, farmaci e così via possono avere soglie più rigide per le risposte degli agenti.
Impatto della strategia:
- Evidenziare i test guardrail (RAI, argomenti sensibili, dati limitati).
- Includere test che confermano i modelli di rifiuto corretti per tutte le categorie ad alto rischio.
- Rafforzare le risposte previste per garantire che non siano previsti criteri allucinati o flussi di lavoro inventati.
Ciclo di vita del contenuto e frequenza delle modifiche
I vantaggi, i cicli delle retribuzioni, gli standard di supporto IT o le istruzioni per la risoluzione dei problemi possono essere aggiornati ogni anno o anche trimestralmente.
Impatto della strategia:
- Compilare il piano di valutazione in base ai cicli di modifica dei criteri.
- Eseguire nuovamente i set di test dopo ogni aggiornamento delle conoscenze o rettifica dei criteri stagionali.
- Eseguire e valutare i test che sono "sensibili ai criteri" in modo che vengano monitorati più attentamente.
Passaggi successivi
- Informazioni su come creare una strategia di valutazione personalizzata
- Ignorare: Avviare l'esecuzione dei test