Valutazioni della qualità della risposta per l'agente Self-Service dipendente

Si applica a: ✅ Microsoft 365 Copilot

Microsoft Copilot Studio dispone di uno strumento di valutazione che consente test automatizzati per la qualità dell'output della risposta dell'agente. A differenza dei test nel riquadro chat, lo strumento di valutazione dell'agente esegue set di test ripetibili basati su scenari usando profili utente diversi senza richiedere il test manuale di ogni richiesta. Altre informazioni sullo strumento di valutazione.

Come iniziare:

Per iniziare, acquisire informazioni sulle valutazioni come processo e set di competenze
Altre informazioni su come creare una strategia di valutazione personalizzata per l'agente Self-Service dipendente
Iniziare quindi a usare strumenti di valutazione, set di test e informazioni su come misurare parti diverse dell'esperienza employee Self-Service

Nota

Lo strumento di valutazione non può ancora esaminare il contenuto all'interno di schede adattive.
Lo strumento di valutazione non misura la latenza o la velocità di risposta dell'agente.
È necessario modificare l'accesso a Copilot Studio per eseguire i test. I risultati dei test possono essere condivisi con utenti che non hanno accesso a Copilot Studio esportando i risultati del test.

Perché investire in valutazioni per l'agente?

Le valutazioni degli agenti, chiamate anche evals, sono un nuovo modo per misurare il comportamento e la risposta di un agente generativo quando usa le conoscenze e i dati dell'organizzazione per rispondere alle domande dei dipendenti. Interrompere l'individuazione e iniziare a valutare la qualità delle risposte degli agenti usando lo strumento di valutazione Copilot Studio per assicurarsi che siano allineati ai criteri hr, rispettare il contesto utente, ad esempio ruolo e area geografica, e mantenere il dipendente e l'organizzazione disinformazioni in forma sicura. Creare una strategia di valutazione chiara che includa query golden, set di test strutturati e un processo per la revisione dei risultati. Usare le informazioni apprese dai risultati dei test per migliorare la qualità della risposta affinando le istruzioni dell'agente, modificando i trigger degli argomenti e aggiornando le origini conoscenze.

Ottenere un quadro più chiaro del modo in cui l'agente Self-Service dipendente risponde e gestisce determinati scenari.
Distribuire più velocemente con meno rischi convalidando le modifiche prima dell'ambiente di produzione.
Migliorare l'accuratezza e la rilevanza usando un punteggio di qualità coerente e a terra.
Evitare regressioni causate da richieste, modelli o modifiche della configurazione.
Risparmiare tempo di controllo di qualità manuale tramite la generazione e la valutazione automatizzate del set di dati.
Aumentare la fiducia dei dipendenti con risposte più coerenti, complete e corrette.
Supportare la governance e la conformità con procedure di valutazione verificabili, ripetibili e oggettive.

Le valutazioni consentono di rispondere:

Questa esperienza soddisfa le esigenze dei dipendenti?
Le conoscenze, i dati e le qualità conversazionali si uniscono in modo da deviare effettivamente i biglietti e migliorare l'esperienza dei dipendenti?
Le risposte formano l'agente riflettono il giusto livello di accuratezza, completezza e rilevanza per creare fiducia e incoraggiare l'adozione degli utenti?

Differenze tra le procedure di controllo della qualità tradizionali e le valutazioni LLM

Domande di controllo di qualità tradizionali: Il sistema funzionava? Controlla se il software si comporta esattamente come programmato, rileva bug e arresti anomali e usa controlli manuali o con script.

Evals chiede: La risposta è stata abbastanza buona, abbastanza sicura e abbastanza utile? Verifica se un sistema di intelligenza artificiale si comporta in modo accettabile in molti possibili risultati, testa scenari utente reali e usa set di test riutilizzabili automatizzati.

Il controllo di qualità controlla se l'agente ha risposto
Verifica se la risposta è stata *utile

Esempi

Di seguito sono riportati alcuni esempi che illustrano la differenza tra le valutazioni QA e LLM.

Approccio	Focus
Controllo di qualità tradizionale	Funzionalità di sistema
Valutazioni LLM	Qualità e utilità della risposta

Scenario: Un dipendente pone una domanda comune sul libro paga

Richiesta utente: "Perché la mia paga netta è inferiore questo mese?"

Risposta di esempio di controllo di qualità tradizionale:

"La retribuzione netta è inferiore a causa delle deduzioni. Per maggiori dettagli, controllare la distinta paga."

Dal punto di vista del controllo di qualità tradizionale, questa risposta ha un aspetto corretto:

Il sistema non si è arrestato in modo anomalo
Rendering corretto della risposta
Non sono stati generati errori
L'agente ha restituito una risposta
Nulla ha violato una regola dura

Il problema con una risposta come questa è che non aiuta a impedire la creazione dei ticket e non aumenta la soddisfazione dei dipendenti.

Risposta di qualità superiore:

"La retribuzione netta è inferiore perché le deduzioni vengono reimpostate all'inizio dell'anno civile. Ottenere altri dettagli nell'hub dei dipendenti per controllare l'ultimo paystub."

Questa risposta:

Risponde alla domanda reale
Aiuta il dipendente self-service
Riduce i ticket di supporto
Allinea al comportamento dei criteri per le retribuzioni

Questa risposta è molto più utile e consente all'utente di risolvere il problema. Le valutazioni consentono di misurare la distanza tra la risposta effettiva dell'agente e la risposta prevista ideale per scenari specifici, in modo da poter apportare miglioramenti all'agente per ottenere determinati risultati aziendali. Un altro esempio:

Richiesta utente: "Qual è il mio stipendio base?"

Risposta di esempio di controllo di qualità tradizionale:

"Il tuo stipendio di base è reperibile in Workday."

Risposta di qualità superiore:

"Il tuo stipendio base è $ 155,000 USD. Altre informazioni sulle retribuzioni sono disponibili nell'hub dei dipendenti.

Considerare le valutazioni degli agenti come un programma

Quando si inizia a valutare le risposte degli agenti, considerare il test come un programma, non come un'attività una tantum. Sono necessari ruoli chiari, responsabilità definite e un ciclo di vita ripetibile in modo che le persone giuste esaminino i risultati, approvano le modifiche, implementino modifiche ed eseguire nuovamente i test nel tempo. Questa struttura consente di migliorare la qualità in modo coerente, di adattarla a nuovi scenari e di confrontare le prestazioni tra i modelli LLM senza conseguenze impreviste.

Ruoli e responsabilità

Organizzazione dei principi

Nelle distribuzioni aziendali non tutti possono modificare l'agente, molti team possiedono criteri e rischi, i dati sensibili dei dipendenti sono coinvolti e le decisioni devono essere controllabili e difendibili. Organizzare le persone in modo che: rispetti i limiti di accesso Copilot Studio, consenta a molti revisori senza molti editor, crei una chiara responsabilità, supporti controlli e verifiche di conformità e impedisca modifiche non approvate al contenuto sensibile.

TLDR: People più vicino ai risultati della verifica dei criteri. People più vicino alla piattaforma applicare le modifiche.

Team responsabili

Team	Responsabilità	Ruolo nelle evals
Proprietario dell'agente (CENTRAL IT, Digital Workplace, Copilot Studio maker)	È proprietario della configurazione dell'agente ESS. Esegue valutazioni e gestisce l'esecuzione dei test. Applica le modifiche approvate. Mantiene la cadenza di valutazione.	L'unico ruolo con le mani sui controlli funge da braccio di esecuzione.
Proprietario del programma di valutazione (Product Manager, responsabile della piattaforma)	Definisce il significato di buona qualità. Imposta gli obiettivi di valutazione. Decide le classificazioni degli scenari. Possiede la strategia di valutazione nel tempo.	Senza questo ruolo, le valutazioni diventano tattiche e incoerenti.
Proprietari di dominio (risorse umane, retribuzioni, proprietari di servizi IT)	Esaminare i risultati della valutazione per il dominio. Convalidare la correttezza rispetto ai criteri reali. Approvare o rifiutare le modifiche. Contrassegna le lacune o le risposte non sicure.	La maggior parte degli errori ESS è che i team centrali specifici del dominio non possono eseguire la convalida da soli.
Revisori legali, privacy e conformità	Esaminare l'intelligenza artificiale responsabile e gli scenari sensibili. Convalidare i modelli di rifiuto. Approvare la copertura per gli argomenti ad alto rischio. Definire i requisiti di escalation.	Le valutazioni spesso eserci vano il rischio di criteri relativi alla compensazione e ai dati personali.
Stakeholder della sicurezza e della protezione dei dati	Convalidare che le valutazioni non espongono dati con restrizioni. Assicurarsi che gli ambienti seguano le regole di gestione dei dati.	Le valutazioni ESS toccano misure di sicurezza dei dati aziendali reali devono essere esplicite.

Funzionamento dei ruoli

Il proprietario del programma di valutazione definisce gli elementi da testare
Il proprietario dell'agente esegue valutazioni e raccoglie i risultati
I proprietari di dominio esaminano gli errori rilevanti per le aree
Legal/Privacy/Security specificano scenari ad alto rischio ed esaminano i risultati dei test
Il proprietario dell'agente applica modifiche approvate per migliorare le risposte dell'agente
Le valutazioni vengono rieseguite dopo aver apportato modifiche

Ciclo di vita delle valutazioni: quando valutare?

**Prima della distribuzione-obiettivo: avviare con attendibilità

Verificare che gli scenari di base funzionino
Rilevare le conoscenze mancanti, i connettori interrotti o le risposte non sicure in anticipo
Stabilire una barra della qualità di base
Concentrarsi su: Scenari principali che devono essere corretti, Scenari di intelligenza artificiale non risposta e responsabilità, differenze tra ruoli e aree geografiche

**Durante la personalizzazione e l'iterazione-obiettivo: migliorare la qualità man mano che l'agente si evolve

Misurare l'impatto delle modifiche apportate a conoscenze, argomenti o flussi di lavoro
Verificare che le correzioni migliorino effettivamente le risposte
Evitare regressioni quando viene aggiunto nuovo contenuto
Concentrarsi su: Varianti e casi perimetrali, nuovi scenari di personalizzazione, richieste con errori precedenti

**Dopo la distribuzione-obiettivo: mantenere la qualità nel tempo

Le valutazioni diventano un sistema di avviso rapido invece di basarsi sui reclami degli utenti
Rilevare le regressioni dopo gli aggiornamenti o le modifiche dei criteri
Concentrarsi su: Scenari noti ad alto rischio o con volumi elevati, richieste di intelligenza artificiale sensibili e responsabili, scenari associati a KPI

**Scalabilità e ottimizzazione-obiettivo: dimostrare valore e guidare l'investimento

Mostra dove l'agente ha buone prestazioni o ha bisogno di investimenti
Collegare i miglioramenti qualitativi ai risultati aziendali
Focus su: Copertura tra scenari e persone, gap qualitativi allineati agli indicatori KPI, alle esigenze degli utenti a coda lunga ed emergenti

Le fasi di base del ciclo di test

1. Iniziare misurando ciò che conta di più.

Iniziare con un piccolo set di test intenzionali invece di cercare di coprire tutto contemporaneamente. Scegliere scenari basati su attività critiche dei dipendenti, aree problematiche note, argomenti ad alto rischio (ad esempio pagamento, criteri di abbandono e scenari che richiedono dati dei dipendenti) e aree correlate ai risultati aziendali.

2. Eseguire il test per stabilire una linea di base.

Si supponga che la prima esecuzione riveli lacune. È consigliabile ricevere segnali chiari su dove le risposte sono deboli, dove i limiti di sicurezza non sono chiari e dove le aspettative non corrispondono al comportamento effettivo. Questa linea di base offre a tutti un punto di riferimento condiviso anziché basarsi su opinioni.

3. Sintetizzare i risultati, perché non tutti gli errori sono uguali.

Questo passaggio è il passaggio più importante. Chiedi cosa ti dicono gli errori. Cercare i modelli: l'agente è costantemente troppo vago? Si tratta di rispondere in modo eccessivo a domande sensibili? Gli errori sono concentrati in un dominio? Senza sintesi, le valutazioni perdono rapidamente credibilità.

4. Decidere cosa deve effettivamente cambiare.

La maggior parte delle modifiche si suddivide in tre categorie:

**Un. L'agente deve modificare i risultati potrebbe mostrare lacune nella conoscenza, argomenti che non vengono attivati (o attivati in modo eccessivo) o dettagli del contesto utente mancanti, ad esempio ruolo e area geografica. Questi problemi richiedono in genere aggiornamenti a origini conoscenze, istruzioni dell'agente o progettazione di argomenti.
**B. La risposta prevista deve essere modificata. La risposta prevista potrebbe essere troppo restrittiva, potrebbe non rafforzare il comportamento corretto o creare errori falsi da piccole differenze di formulazione.
**C. I criteri di test devono essere modificati. Il problema potrebbe essere il tipo di test, superare soglie che non riflettono la qualità accettabile o criteri che misurano la cosa sbagliata.

5. Eseguire l'iterazione attraverso alcuni cicli di miglioramento.

Loop: Eseguire -> Revisione -> Regola -> Riesegui. L'agente migliora, i test sono più precisi e il team crea una comprensione condivisa dell'aspetto positivo.

6. Il test si stabilizza.

Le risposte previste smettono di spostarsi. I criteri sono giusti. Gli errori diventano significativi anziché rumorosi. Il test diventa il passaggio di benchmark, il che significa che l'esperienza soddisfa le aspettative concordate e gli stakeholder si fidano del risultato.

7. Usare il test stabilizzato per le regressioni.

Riutilizzare lo stesso test per: convalidare le modifiche prima dell'implementazione, rilevare le regressioni in anticipo, monitorare la qualità nel tempo e verificare la variazione della qualità tra i modelli LLM. La valutazione funge ora da binario di sicurezza.

Considerazioni sul processo per la strategia di valutazione

La configurazione di una strategia di valutazione non riguarda solo la scrittura di test case, ma anche la progettazione di un processo adatto alla forma, alla struttura e al modello di governance dell'organizzazione. Ogni azienda ha diversi modelli di proprietà, sistemi, criteri e flussi di revisione. Queste realtà cross-funzionali determinano come strutturare le query d'oro, chi esamina i risultati e come organizzare i set di test.

La sezione seguente elenca i modelli e le considerazioni più comuni per definire una strategia di valutazione adatta all'agente Self-Service dipendente e all'organizzazione in generale.

Struttura organizzativa e modello di proprietà

La maggior parte delle organizzazioni dispone di più sottodomini proprietari di argomenti diversi, ad esempio:

HR: Vantaggi, compensi, mobilità, congedo, onboarding, relazioni con i dipendenti
IT: identità & accesso, endpoint/dispositivo, software, rete, operazioni di supporto

Impatto della strategia:

Creare set di test separati per dominio, ad esempio Benefit, Leave, IT Access, Devices e così via.
Assegnare proprietari specifici del dominio per esaminare i risultati dei test.
Usare l'assegnazione di tag o un csv separato. in modo che i risultati dei test possano essere indirizzati ai team giusti.
Alcuni team richiedono la firma legale, delle operazioni delle risorse umane, della sicurezza IT o della conformità.

Complessità e integrazioni del sistema

Risorse umane e IT hanno più sistemi integrati (Workday, ServiceNow, strumenti per retribuzioni, viaggi, identità, gestione dei dispositivi). La qualità della risposta dipende spesso da chiamate del connettore accurate e dal routing di sistema corretto.

Impatto della strategia:

Creare set di test specifici del sistema, ad esempio query del profilo Workday
Definire le risposte previste che includono trigger e parametri dello strumento corretti.
Eseguire test di regressione ogni volta che viene modificata la configurazione o le autorizzazioni di un sistema.

Variazione dei criteri tra aree e ruoli

Le aziende con forza lavoro globale hanno in genere regole diverse per le festività, le ferie, l'idoneità, i requisiti VPN, i sistemi di retribuzioni e il supporto dei dispositivi.

Impatto della strategia:

Includere query d'oro specifiche dell'area (ad esempio, "Sono idoneo per il congedo parentale in Germania?").
Usare le variabili di contesto utente (ruolo, area geografica) nel test per garantire che le risposte si adattino correttamente.
Valutare "Scenari solo Stati Uniti" e così via, come set di test separati.

Differenze basate sui ruoli nelle autorizzazioni e nei flussi di lavoro

Manager, dipendenti, appaltatori e nuovi assunti spesso hanno passaggi e diritti diversi, che possono anche variare in base all'area.

Impatto della strategia:

Creare set di test che combinano intenzionalmente i ruoli per esporre le lacune nella logica di personalizzazione.
Convalidare i modelli di rifiuto per l'accesso limitato ("In qualità di terzista, non si ha accesso...").
Includere flussi di lavoro specifici del manager (approvazioni, attività a livello di team).

Governance, conformità e tolleranza ai rischi

Settori più regolamentati come l'assistenza sanitaria, i servizi finanziari, enti pubblici, farmaci e così via possono avere soglie più rigide per le risposte degli agenti.

Impatto della strategia:

Evidenziare i test guardrail (RAI, argomenti sensibili, dati limitati).
Includere test che confermano i modelli di rifiuto corretti per tutte le categorie ad alto rischio.
Rafforzare le risposte previste per garantire che non siano previsti criteri allucinati o flussi di lavoro inventati.

Ciclo di vita del contenuto e frequenza delle modifiche

I vantaggi, i cicli delle retribuzioni, gli standard di supporto IT o le istruzioni per la risoluzione dei problemi possono essere aggiornati ogni anno o anche trimestralmente.

Impatto della strategia:

Compilare il piano di valutazione in base ai cicli di modifica dei criteri.
Eseguire nuovamente i set di test dopo ogni aggiornamento delle conoscenze o rettifica dei criteri stagionali.
Eseguire e valutare i test che sono "sensibili ai criteri" in modo che vengano monitorati più attentamente.

Passaggi successivi

Informazioni su come creare una strategia di valutazione personalizzata
Ignorare: Avviare l'esecuzione dei test

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-03-24

Valutazioni della qualità della risposta per l'agente Self-Service dipendente

Perché investire in valutazioni per l'agente?

Differenze tra le procedure di controllo della qualità tradizionali e le valutazioni LLM

Esempi

Considerare le valutazioni degli agenti come un programma

Ruoli e responsabilità

Organizzazione dei principi

Team responsabili

Funzionamento dei ruoli

Ciclo di vita delle valutazioni: quando valutare?

Le fasi di base del ciclo di test

Considerazioni sul processo per la strategia di valutazione

Struttura organizzativa e modello di proprietà

Complessità e integrazioni del sistema

Variazione dei criteri tra aree e ruoli

Differenze basate sui ruoli nelle autorizzazioni e nei flussi di lavoro

Governance, conformità e tolleranza ai rischi

Ciclo di vita del contenuto e frequenza delle modifiche

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive