Applicare il framework di triage della valutazione tramite scenari pratici

I walkthrough end-to-end illustrano come i livelli del framework di valutazione collaborano nella pratica. Ogni percorso inizia da uno scenario di valutazione diverso e segue un percorso di diagnostica distinto.

Le procedure dettagliate illustrano come applicare il framework passo dopo passo. Usare questi esempi per comprendere come passare dai risultati della valutazione alla diagnosi, alla correzione e alla verifica in scenari di valutazione degli agenti reali.

Suggerimento

Prima di esaminare questi esempi, esaminare gli obiettivi del framework, inclusi i concetti e i principi di base.

Viaggio	Situazione iniziale	Cosa dimostra
Viaggio 1	Prima esecuzione della valutazione	Flusso end-to-end: interpretare → assegnare priorità → valutare → correggere → verificare
Viaggio 2	I punteggi si stabilizzano dopo più iterazioni	Soluzioni alternative per l'analisi dei criteri, la riclassificazione e la limitazione della piattaforma
Viaggio 3	I punteggi regrediscono dopo un cambiamento	Rilevamento della regressione, diagnosi dei conflitti di istruzioni e risoluzione dei compromessi

Annotazioni

Questi esempi sono illustrativi e basati su modelli comuni osservati in più esecuzioni di valutazione dei clienti. I test case, i punteggi e i dettagli dell'agente sono compositi rappresentativi anziché record di una singola interazione. Gli approcci diagnostici e le strategie di correzione mostrate riflettono le procedure usate nelle implementazioni reali.

Fase 1: Prima esecuzione del test

Esegui la suite di valutazione per la prima volta su un agente di supporto clienti. Ecco i risultati:

Set di valutazione	Tasso di superamento
Sicurezza e dati personali	100%
Domande e risposte di Core Business	87%
Nozioni di base	71%
Chiamata allo strumento	92%
Attivare il routing	88%
Tono e qualità	83%
Escalazione	90%
Nel complesso	85%

Passaggio 1: Interpretare i punteggi (livello 1)

Usare la tabella di interpretazione dei punteggi per calibrare le soglie e identificare quali set di valutazione sono inferiori alle soglie di blocco.

Set di valutazione	Punteggio	Soglia	Condizione
Sicurezza e dati personali	100%	95% bloccaggio	Pass
Domande e risposte di Core Business	87%	blocco dell'80%	Pass
Nozioni di base	71%	80% bloccaggio	Di seguito è riportato il blocco
Chiamata allo strumento	92%	85% di blocco	Pass
Attivare il routing	88%	80% blocco	Pass
Tono e qualità	83%	75% bloccaggio	Pass
Escalazione	90%	85% di blocco	Pass

Valutazione dell'idoneità: iterazione. Il radicamento della conoscenza è al di sotto della sua soglia di blocco. Concentrare gli sforzi di correzione lì.

Passaggio 2: Classificare in ordine di priorità gli errori (livello 2, passaggio 0)

Situazione: Il knowledge grounding ha sette test case. Due test case hanno esito negativo: KG-003 e KG-005. Entrambi i test case si trovano in un set di valutazione aziendale principale, quindi hanno la priorità 2. Poiché ci sono solo due elementi, eseguire una valutazione preliminare di entrambi.

Riferimento: Classificare in ordine di priorità gli errori (livello 2, passaggio 0)

Passaggio 3: Valutare KG-003 (livello 2, passaggi 1-2)

Test case KG-003:

Input di esempio: "Qual è il criterio di restituzione?"
Risposta prevista: "Offriamo una finestra di ritorno di 30 giorni per tutti gli acquisti."
Risposta dell'agente: "Il nostro criterio di restituzione consente i ritorni entro 15 giorni lavorativi dall'acquisto."
Metodo di valutazione: Corrispondenza parola chiave
Risultato: Esito negativo (previsto "30 giorni", l'agente ha detto "15 giorni lavorativi")

Verificare la configurazione della valutazione (passaggio 1 del livello 2):

Domanda	Risposta	Result
La risposta dell'agente è accettabile?	È necessario controllare il documento di origine.	Controllare prima l'origine.
La risposta prevista è ancora corrente?	Il documento di origine indica "15 giorni lavorativi". I criteri sono stati aggiornati.	No. La risposta prevista è obsoleta.

Classificazione: problema di configurazione della valutazione. Risposta prevista obsoleta. L'agente è corretto. La valutazione non è corretta.

Passaggio 4: Valutare KG-005 (livello 2, passaggi 1-2)

Test case KG-005:

Input di esempio: "Il piano Premium include una garanzia estesa?"
Risposta prevista: "Il piano Premium include una garanzia standard di due anni. Le opzioni di garanzia estesa sono disponibili separatamente per l'acquisto."
Risposta dell'agente: "Sì, il piano Premium include una garanzia estesa di tre anni che copre tutte le parti e il lavoro."
Metodo di valutazione: Confrontare il significato
Risultato: Esito negativo (dettagli della garanzia falsificati dall'agente)

Verificare la configurazione della valutazione (passaggio 1 del livello 2):

Domanda	Risposta	Result
La risposta dell'agente è accettabile?	No. "Garanzia estesa di tre anni" è inventata.	Continuare
La risposta prevista è attuale?	Sì. La fonte conferma la garanzia standard di due anni.	Continuare
Il test case è realistico?	Sì. Domanda comune del cliente.	Continuare
Potrebbe essere corretta una risposta alternativa?	No. I dettagli della garanzia sono reali.	Continuare
Il metodo di valutazione è appropriato?	Sì.Il significato del confronto è corretto per l'accuratezza semantica.	La valutazione è valida.

Diagnosticare l'agente (passaggio 2 del livello 2):

Domanda	Risposta
Il contenuto di origine non è corretto?	No. Fonte dice "garanzia standard di due anni".
L'agente ha contraddetto le informazioni nella fonte?	Sì. Fonte dice "garanzia standard di due anni", ma l'agente ha detto "garanzia estesa di tre anni".
L'agente ha risposto senza usare alcuna origine?	Probabilmente sì. La "garanzia estesa di tre anni che copre tutte le parti e il lavoro" non esiste in alcuna fonte.

Classificazione: problema di configurazione dell'agente. Gap di conoscenze. L'agente ha prodotto i dettagli della garanzia che non sono presenti nelle fonti di conoscenza configurate.

Passaggio 5: Correggere (livello 3)

KG-003 (correzione della configurazione di valutazione):

Modifica: Aggiornare il valore previsto da "finestra di restituzione di 30 giorni" a "15 giorni lavorativi"
Riesegua: Solo KG-003
Aspettare: Passare

KG-005 (correzione della configurazione dell'agente):

Cambiare: Aggiungere istruzioni di ancoraggio al prompt del sistema: "Rispondere solo in base alle informazioni trovate nelle fonti di conoscenza. Se le informazioni non sono disponibili, ditelo.
Riesegua: Valutazione del set completo di conoscenze (la modifica della configurazione dell'agente può avere effetti più ampi)
Aspettare: KG-005 passa. Altri test case non devono regredire.

Passaggio 6: Verificare

Dopo entrambe le modifiche, eseguire di nuovo il set di valutazione di base delle conoscenze:

Prima	Dopo
71% (5/7 superati)	86% (6/7 superati)

Valutazione: Il livello di conoscenza di base è ora al di sopra della soglia di blocco dell'80%. Un guasto (KG-007) persiste e non blocca la prontezza. Esaminarlo nell'iterazione successiva.

Passaggio 7: Documento (livello 4)

Registrare nel log degli errori:

Caso di test	Tipo di causa radice	Problema osservato	Modifica applicata	Risolto
KG-003	Configurazione della valutazione	Risposta prevista non aggiornata (i criteri sono stati modificati da 30 giorni a 15 giorni lavorativi).	Valore previsto aggiornato	Sì
KG-005	Configurazione dell'agente	Dettagli di garanzia non corretti che non sono presenti in alcuna origine.	Aggiunta dell'istruzione di base al prompt del sistema	Sì

Nota modello: Verificare i valori previsti per i documenti di origine prima dell'esecuzione di ogni valutazione. Aggiungi questo passaggio all'elenco di controllo di prevalutazione.

Verifica della preparazione: Tutti i set di valutazione superano ora le soglie di blocco.

Valutazione dell'idoneità: Distribuire l'agente con lacune note (KG-007 documentato, piano di monitoraggio sul posto).

Riferimento: Livello 4: Analizzare i modelli e migliorare continuamente l'agente

Viaggio 2: Piano di punteggio

Situazione: Si eseguono quattro iterazioni in un agente del supporto tecnico del prodotto. L'accuratezza effettiva rimane al 78% in tutte le quattro esecuzioni. Le modifiche vengono apportate dopo ogni esecuzione, ma non si vede alcun miglioramento.

Passaggio 1: Controllare i modelli (livello 4)

Esaminare il log degli errori in tutte e quattro le iterazioni:

Iterazione	Punteggio	Modifica applicata	Result
1	78%	(baseline)	-
2	79%	Aggiunto "Sii preciso sulle specifiche del prodotto"	Nessuna modifica significativa
3	77%	Richiamo riorganizzato per mettere prima le istruzioni di precisione	Nessuna modifica significativa
4	78%	Sono stati aggiunti esempi pratici di risposte corrette relative al prodotto	Nessuna modifica significativa

Tendenza: stabile. La correzione non è destinata alla causa principale reale.

Riferimento: Livello 4: Analizzare i modelli e migliorare continuamente l'agente

Passaggio 2: Analizzare i test case con errori

Esaminare i sei errori permanenti in tutte le iterazioni.

Caso di test	Fallendo dal	Problema osservato
FA-002	Iterazione 1	L'agente cita la pagina delle domande frequenti invece del manuale del prodotto
FA-005	Iterazione 1	L'agente fa riferimento alla pagina delle FAQ invece che al manuale del prodotto.
FA-008	Iterazione 1	L'agente cita la pagina delle domande frequenti invece del manuale del prodotto.
FA-011	Iterazione 1	L'agente cita la pagina delle domande frequenti anziché il manuale del prodotto
FA-014	Iterazione 1	L'agente cita la pagina delle domande frequenti invece del manuale del prodotto.
FA-019	Iterazione 2	L'agente fornisce una risposta parziale dalle domande frequenti, ma ignora dettagli del manuale.

Analisi della concentrazione: Cinque di sei errori (83%) implicano la stessa causa radice: l'agente recupera informazioni dalla pagina domande frequenti anziché dal manuale del prodotto.

Passaggio 3: Nuovo tentativo (livello 2)

Inizialmente, classificare gli errori come problema di configurazione dell'agente: origine errata recuperata.

Applicare più modifiche alla configurazione dell'agente, tra cui la riformulazione della richiesta, il riordinamento e l'aggiunta di esempi. Queste modifiche non comportano miglioramenti misurabili. A questo punto, verificare il guasto rispetto agli indicatori di limitazione della piattaforma.

Indicator	Controllo
L'errore persiste in più varianti di richiesta o configurazione	Sì. Quattro iterazioni senza modifiche.
Il recupero restituisce in modo coerente documenti non corretti nonostante la configurazione di origine corretta	Sì. Le domande frequenti vengono recuperate in modo coerente anziché il manuale del prodotto.

Riclassificazione: Questo problema è una limitazione della piattaforma correlata al posizionamento della ricerca. La piattaforma dà costantemente priorità alle FAQ rispetto al manuale del prodotto per queste query, e ulteriori cambiamenti nei prompt o nelle istruzioni non influiscono sul comportamento della ricerca.

Riferimento: Livello 2: Errori dell'agente di valutazione

Passaggio 4: Correggere (livello 3- Limitazione della piattaforma)

Quando si classifica un errore come limitazione della piattaforma, concentrarsi sulla correzione delle soluzioni alternative e sulla documentazione anziché apportare modifiche alla configurazione dell'agente.

Riferimento: Risposta alle limitazioni della piattaforma

Strategia alternativa: applicare uno o più degli approcci di mitigazione seguenti per ridurre l'impatto:

Ristrutturare il manuale del prodotto con intestazioni di sezione più chiare allineate al vocabolario usato nelle query utente.
Duplicare le specifiche critiche del prodotto dal manuale nelle domande frequenti per creare percorsi di recupero ridondanti.
Rifattorizzare il contenuto manuale in modo che ogni sezione affronti una singola domanda ben definita per migliorare la corrispondenza dei segmenti di ricerca.

Questi approcci mirano a influenzare il comportamento di recupero senza basarsi sulle modifiche alle istruzioni o alle richieste.

Escalation e tracciamento: Se la limitazione persiste, documentare e inoltrare il problema al team della piattaforma.

Documentare la limitazione come indicato di seguito: "Le query per le specifiche del prodotto portano coerentemente alla pagina delle domande frequenti (ultimo aggiornamento: <data>, <n> pagine) invece del manuale del prodotto (ultimo aggiornamento: <data>, <N> pagine), nonostante il manuale contenga le informazioni autorevoli".
Fornire prove di supporto: includere più test case che mostrano la query, l'origine prevista e l'origine effettiva recuperata.
Inviare per l'indagine.
Condividere la limitazione documentata e le prove con il team della piattaforma per il tracciamento e il monitoraggio.

Passaggio 5: Verificare

Dopo la ristrutturazione del manuale del prodotto e l'aggiunta di voci di domande frequenti ridondanti, eseguire nuovamente il set di valutazione pertinente per verificare l'impatto.

Prima	Dopo
78% (invariato tra quattro iterazioni)	89%

Valutazione: La soluzione alternativa migliora le prestazioni complessive. Un errore rimane (FA-019). La query è troppo ambigua per recuperare in modo affidabile l'origine corretta, anche con contenuto ristrutturato. Questo errore viene registrato come limitazione nota.

Passaggio 6: Documento

Aggiornare il log degli errori in modo da riflettere la classificazione finale e i risultati.

Caso di test	Tipo di causa radice	Problema osservato	Modifica applicata	Risolto
FA-002, 005, 008, 011, 014	Limitazione della piattaforma	Il ranking di recupero assegna priorità alle FAQ rispetto al manuale del prodotto	Intestazioni del manuale ristrutturate; specifiche critiche duplicate nelle FAQ	Sì
FA-019	Limitazione della piattaforma	La query ambigua non è in grado di recuperare in modo affidabile l'origine corretta	Documentata come limitazione nota	No

Takeaway chiave: Se i punteggi di valutazione rimangono invariati attraverso più modifiche ai prompt o alle istruzioni, è improbabile che la causa radice sia il prompt. Convalidare il comportamento dell'infrastruttura e della piattaforma prima di investire di più nella progettazione dei prompt.

Percorso 3: Regressione post-aggiornamento

Situazione: Hai aggiornato la richiesta di sistema per migliorare il tono e l'empatia. I punteggi di tono sono aumentati, ma l'accuratezza effettiva è diminuita al di sotto della soglia di blocco, introducendo una regressione.

Prima della modifica:

Set di valutazione	Punteggio
Accuratezza dei fatti	91%
Tono e qualità	83%
Tutti gli altri	Al di sopra della soglia

È stata aggiunta l'istruzione seguente alla richiesta di sistema: "Confermare sempre la preoccupazione del cliente e mostrare empatia prima di fornire la risposta. Iniziare ogni risposta convalidando l'esperienza del cliente."

Dopo la modifica:

Set di valutazione	Prima	Dopo	Delta
Accuratezza dei fatti	91%	76%	-15%
Tono e qualità	83%	91%	+8%

Passaggio 1: Interpretare (livello 1)

L'accuratezza effettiva è ora inferiore alla soglia di blocco dell'80%. Questa modifica introduce una regressione e blocca la prontezza.

Riferimento: Livello 1: Interpretare i punteggi e identificare gli errori

Passaggio 2: Controllare i modelli (livello 4)

Corrispondenza del modello di segnale incrociato: il tono migliora mentre l'accuratezza si riduce.

Causa radice indicata: Conflitto di istruzioni.

Le linee guida per il tono appena aggiunte competono con istruzioni di accuratezza per l'attenzione del modello.

Riferimento: Livello 4: Analizzare i modelli e migliorare continuamente l'agente

Passaggio 3: Valutare i nuovi errori (livello 2)

Esaminare i test case di accuratezza fattuale che sono stati superati prima della modifica e ora falliscono.

Test case FA-007:

Input: "Qual è la dimensione massima di caricamento del file?"
Previsto: "La dimensione massima di caricamento dei file è di 25 MB per gli account standard e 100 MB per gli account aziendali".
Agente prima di: "La dimensione massima di caricamento dei file è di 25 MB per gli account standard e 100 MB per gli account aziendali".
Agente dopo: "Capisco completamente la tua preoccupazione per le dimensioni di caricamento dei file: può essere frustrante quando stai cercando di caricare documenti importanti! Voglio assicurarvi di avere tutte le informazioni necessarie. La dimensione massima del caricamento è di 25 MB per i piani standard."

Passaggio 1: Verificare la valutazione: La risposta prevista è corretta e la valutazione è valida. La risposta post-aggiornamento omette i dettagli dell'account aziendale.

Passaggio 2. Diagnosi: La nuova istruzione di tono richiede un preambolo empatico in ogni risposta. Questo requisito consuma il budget di risposta e l'attenzione del modello, portando a risposte di fatto incomplete.

Classificazione: problema di configurazione dell'agente. Conflitto di istruzioni tra linee guida relative al tono e all'accuratezza.

Riferimento: Livello 2: Errori dell'agente di valutazione

Passaggio 4: Correggere (livello 3)

Il problema non è la guida sul tono, ma le priorità concorrenti nello prompt del sistema. La correzione è incentrata sulla separazione e la definizione delle priorità delle istruzioni.

Istruzione precedente (singola, concorrente): "Conferma sempre la preoccupazione del cliente e mostra empatia prima di fornire la tua risposta. Iniziare ogni risposta convalidando l'esperienza del cliente."

Nuova istruzione (separata, con priorità): "Includere sempre la risposta completa alla domanda del cliente. Non omettere i dettagli per brevità. Inoltre, quando il cliente esprime frustrazione o preoccupazione, darne brevemente riconoscimento.

Modifiche chiave:

L'accuratezza viene assegnata in modo esplicito come priorità.
La completezza delle risposte fattuali viene dichiarata direttamente.
L'empatia è condizionale piuttosto che universale.
"Brevemente" vincola l'empatia per evitare il troncamento del contenuto.

Riferimento: Livello 3: Eseguire il mapping dei modelli di errore alle strategie di correzione

Passaggio 5: Verificare

Rieseguire la suite di valutazione completa, perché le modifiche alle richieste di sistema possono avere un impatto ampio.

Set di valutazione	Prima della modifica	Dopo la regressione	Dopo la modifica
Accuratezza dei fatti	91%	76%	90%
Tono e qualità	83%	91%	89%
Tutti gli altri	Al di sopra della soglia	Al di sopra della soglia	Al di sopra della soglia

Valutazione: Entrambi i segnali ora soddisfano le soglie di blocco. Tone non torna completamente al suo picco, ma rimane ampiamente al di sopra della soglia di blocco del 75% e migliora sulla soglia di base originale.

Passaggio 6: Documento

Caso di test	Tipo di causa radice	Problema osservato	Modifica applicata	Risolto
FA-007, FA-012, FA-018 (e altri)	Configurazione dell'agente	Le linee guida sul tono hanno prevalso sulla completezza fattuale.	Prompt ristrutturato per classificare in ordine di priorità l'accuratezza e applicare l'empatia condizionale	Sì

Punto chiave: Convalidare sempre le modifiche al prompt del sistema contro la suite di valutazione completa, non solo il segnale di destinazione. Le istruzioni competono per l'attenzione del modello e i miglioramenti in un'area possono introdurre regressioni in altri.

Modello da monitorare: Questo scenario è un'istanza del problema del budget delle istruzioni. Man mano che i prompt aumentano, i conflitti nelle istruzioni diventano più probabili. Il consolidamento periodico e la semplificazione contribuiscono a mantenere la stabilità.

Modelli comuni tra percorsi

Ogni percorso inizia da uno scenario diverso per illustrare un percorso di diagnostica distinto. Per vedere come un singolo agente procede nel ciclo di vita completo della valutazione, ovvero interpretazione del punteggio, valutazione degli errori, correzione e verifica, vedere Journey 1, che fornisce la procedura dettagliata end-to-end più completa.

Questa tabella evidenzia i modelli ricorrenti osservati in tutti i percorsi e le lezioni pratiche che rafforzano.

Modello	Dove appare	Punto chiave
Verificare la valutazione prima dell'agente	Viaggio 1	Una fonte comune di lavoro sprecato è la risoluzione dei problemi del comportamento dell'agente quando la valutazione stessa non è corretta.
I punteggi piatti indicano una causa radice classificata in modo errato	Viaggio 2	Se la correzione ripetuta non migliora i risultati, riclassificare il problema. Potresti stare affrontando la causa principale sbagliata.
Rieseguire la suite di valutazione completa dopo le modifiche richieste	Viaggio 3	Le modifiche tempestive possono influire su più segnali di qualità. Verificare sempre la presenza di regressioni all'esterno dell'area di destinazione.
Documentare i risultati e le decisioni	Tutti i viaggi	La gestione di un log degli errori impedisce di ritrovare le stesse cause radice nelle iterazioni successive.
Le lacune note possono essere accettabili	Viaggio 1 (KG-007), Viaggio 2 (FA-019)	Non tutti gli errori devono essere risolti prima della spedizione. Documentare le lacune note e monitorarle nel tempo.

Passaggi successivi

Dopo aver esaminato questi esempi, scegliere l'azione successiva più adatta alla situazione corrente:

Iniziare con l'interpretazione del punteggio se si dispone di risultati di valutazione pronti per la valutazione.
Inizia la valutazione dei fallimenti se è necessario diagnosticare i fallimenti di casi di test specifici.
Applicare l'analisi dei modelli se si verificano più guasti e si vogliono identificare i problemi sistemici.
Configurare la registrazione degli errori per tenere traccia di decisioni, risultati e problemi ricorrenti.
Tornare agli obiettivi del framework per esaminare l'approccio completo alla valutazione.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-03-31

Condividi tramite

Applicare il framework di triage della valutazione tramite scenari pratici

Fase 1: Prima esecuzione del test

Passaggio 1: Interpretare i punteggi (livello 1)

Passaggio 2: Classificare in ordine di priorità gli errori (livello 2, passaggio 0)

Passaggio 3: Valutare KG-003 (livello 2, passaggi 1-2)

Passaggio 4: Valutare KG-005 (livello 2, passaggi 1-2)

Passaggio 5: Correggere (livello 3)

Passaggio 6: Verificare

Passaggio 7: Documento (livello 4)

Viaggio 2: Piano di punteggio

Passaggio 1: Controllare i modelli (livello 4)

Passaggio 2: Analizzare i test case con errori

Passaggio 3: Nuovo tentativo (livello 2)

Passaggio 4: Correggere (livello 3- Limitazione della piattaforma)

Passaggio 5: Verificare

Passaggio 6: Documento

Percorso 3: Regressione post-aggiornamento

Passaggio 1: Interpretare (livello 1)

Passaggio 2: Controllare i modelli (livello 4)

Passaggio 3: Valutare i nuovi errori (livello 2)

Passaggio 4: Correggere (livello 3)

Passaggio 5: Verificare

Passaggio 6: Documento

Modelli comuni tra percorsi

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive