Condividi tramite


Applicare il framework di triage della valutazione tramite scenari pratici

I walkthrough end-to-end illustrano come i livelli del framework di valutazione collaborano nella pratica. Ogni percorso inizia da uno scenario di valutazione diverso e segue un percorso di diagnostica distinto.

Le procedure dettagliate illustrano come applicare il framework passo dopo passo. Usare questi esempi per comprendere come passare dai risultati della valutazione alla diagnosi, alla correzione e alla verifica in scenari di valutazione degli agenti reali.

Suggerimento

Prima di esaminare questi esempi, esaminare gli obiettivi del framework, inclusi i concetti e i principi di base.

Viaggio Situazione iniziale Cosa dimostra
Viaggio 1 Prima esecuzione della valutazione Flusso end-to-end: interpretare → assegnare priorità → valutare → correggere → verificare
Viaggio 2 I punteggi si stabilizzano dopo più iterazioni Soluzioni alternative per l'analisi dei criteri, la riclassificazione e la limitazione della piattaforma
Viaggio 3 I punteggi regrediscono dopo un cambiamento Rilevamento della regressione, diagnosi dei conflitti di istruzioni e risoluzione dei compromessi

Annotazioni

Questi esempi sono illustrativi e basati su modelli comuni osservati in più esecuzioni di valutazione dei clienti. I test case, i punteggi e i dettagli dell'agente sono compositi rappresentativi anziché record di una singola interazione. Gli approcci diagnostici e le strategie di correzione mostrate riflettono le procedure usate nelle implementazioni reali.

Fase 1: Prima esecuzione del test

Esegui la suite di valutazione per la prima volta su un agente di supporto clienti. Ecco i risultati:

Set di valutazione Tasso di superamento
Sicurezza e dati personali 100%
Domande e risposte di Core Business 87%
Nozioni di base 71%
Chiamata allo strumento 92%
Attivare il routing 88%
Tono e qualità 83%
Escalazione 90%
Nel complesso 85%

Passaggio 1: Interpretare i punteggi (livello 1)

Usare la tabella di interpretazione dei punteggi per calibrare le soglie e identificare quali set di valutazione sono inferiori alle soglie di blocco.

Set di valutazione Punteggio Soglia Condizione
Sicurezza e dati personali 100% 95% bloccaggio Pass
Domande e risposte di Core Business 87% blocco dell'80% Pass
Nozioni di base 71% 80% bloccaggio Di seguito è riportato il blocco
Chiamata allo strumento 92% 85% di blocco Pass
Attivare il routing 88% 80% blocco Pass
Tono e qualità 83% 75% bloccaggio Pass
Escalazione 90% 85% di blocco Pass

Valutazione dell'idoneità: iterazione. Il radicamento della conoscenza è al di sotto della sua soglia di blocco. Concentrare gli sforzi di correzione lì.

Passaggio 2: Classificare in ordine di priorità gli errori (livello 2, passaggio 0)

Situazione: Il knowledge grounding ha sette test case. Due test case hanno esito negativo: KG-003 e KG-005. Entrambi i test case si trovano in un set di valutazione aziendale principale, quindi hanno la priorità 2. Poiché ci sono solo due elementi, eseguire una valutazione preliminare di entrambi.

Riferimento: Classificare in ordine di priorità gli errori (livello 2, passaggio 0)

Passaggio 3: Valutare KG-003 (livello 2, passaggi 1-2)

Test case KG-003:

  • Input di esempio: "Qual è il criterio di restituzione?"
  • Risposta prevista: "Offriamo una finestra di ritorno di 30 giorni per tutti gli acquisti."
  • Risposta dell'agente: "Il nostro criterio di restituzione consente i ritorni entro 15 giorni lavorativi dall'acquisto."
  • Metodo di valutazione: Corrispondenza parola chiave
  • Risultato: Esito negativo (previsto "30 giorni", l'agente ha detto "15 giorni lavorativi")

Verificare la configurazione della valutazione (passaggio 1 del livello 2):

Domanda Risposta Result
La risposta dell'agente è accettabile? È necessario controllare il documento di origine. Controllare prima l'origine.
La risposta prevista è ancora corrente? Il documento di origine indica "15 giorni lavorativi". I criteri sono stati aggiornati. No. La risposta prevista è obsoleta.

Classificazione: problema di configurazione della valutazione. Risposta prevista obsoleta. L'agente è corretto. La valutazione non è corretta.

Passaggio 4: Valutare KG-005 (livello 2, passaggi 1-2)

Test case KG-005:

  • Input di esempio: "Il piano Premium include una garanzia estesa?"
  • Risposta prevista: "Il piano Premium include una garanzia standard di due anni. Le opzioni di garanzia estesa sono disponibili separatamente per l'acquisto."
  • Risposta dell'agente: "Sì, il piano Premium include una garanzia estesa di tre anni che copre tutte le parti e il lavoro."
  • Metodo di valutazione: Confrontare il significato
  • Risultato: Esito negativo (dettagli della garanzia falsificati dall'agente)

Verificare la configurazione della valutazione (passaggio 1 del livello 2):

Domanda Risposta Result
La risposta dell'agente è accettabile? No. "Garanzia estesa di tre anni" è inventata. Continuare
La risposta prevista è attuale? Sì. La fonte conferma la garanzia standard di due anni. Continuare
Il test case è realistico? Sì. Domanda comune del cliente. Continuare
Potrebbe essere corretta una risposta alternativa? No. I dettagli della garanzia sono reali. Continuare
Il metodo di valutazione è appropriato? Sì.Il significato del confronto è corretto per l'accuratezza semantica. La valutazione è valida.

Diagnosticare l'agente (passaggio 2 del livello 2):

Domanda Risposta
Il contenuto di origine non è corretto? No. Fonte dice "garanzia standard di due anni".
L'agente ha contraddetto le informazioni nella fonte? Sì. Fonte dice "garanzia standard di due anni", ma l'agente ha detto "garanzia estesa di tre anni".
L'agente ha risposto senza usare alcuna origine? Probabilmente sì. La "garanzia estesa di tre anni che copre tutte le parti e il lavoro" non esiste in alcuna fonte.

Classificazione: problema di configurazione dell'agente. Gap di conoscenze. L'agente ha prodotto i dettagli della garanzia che non sono presenti nelle fonti di conoscenza configurate.

Passaggio 5: Correggere (livello 3)

KG-003 (correzione della configurazione di valutazione):

  • Modifica: Aggiornare il valore previsto da "finestra di restituzione di 30 giorni" a "15 giorni lavorativi"
  • Riesegua: Solo KG-003
  • Aspettare: Passare

KG-005 (correzione della configurazione dell'agente):

  • Cambiare: Aggiungere istruzioni di ancoraggio al prompt del sistema: "Rispondere solo in base alle informazioni trovate nelle fonti di conoscenza. Se le informazioni non sono disponibili, ditelo.
  • Riesegua: Valutazione del set completo di conoscenze (la modifica della configurazione dell'agente può avere effetti più ampi)
  • Aspettare: KG-005 passa. Altri test case non devono regredire.

Passaggio 6: Verificare

Dopo entrambe le modifiche, eseguire di nuovo il set di valutazione di base delle conoscenze:

Prima Dopo
71% (5/7 superati) 86% (6/7 superati)

Valutazione: Il livello di conoscenza di base è ora al di sopra della soglia di blocco dell'80%. Un guasto (KG-007) persiste e non blocca la prontezza. Esaminarlo nell'iterazione successiva.

Passaggio 7: Documento (livello 4)

Registrare nel log degli errori:

Caso di test Tipo di causa radice Problema osservato Modifica applicata Risolto
KG-003 Configurazione della valutazione Risposta prevista non aggiornata (i criteri sono stati modificati da 30 giorni a 15 giorni lavorativi). Valore previsto aggiornato
KG-005 Configurazione dell'agente Dettagli di garanzia non corretti che non sono presenti in alcuna origine. Aggiunta dell'istruzione di base al prompt del sistema

Nota modello: Verificare i valori previsti per i documenti di origine prima dell'esecuzione di ogni valutazione. Aggiungi questo passaggio all'elenco di controllo di prevalutazione.

Verifica della preparazione: Tutti i set di valutazione superano ora le soglie di blocco.

Valutazione dell'idoneità: Distribuire l'agente con lacune note (KG-007 documentato, piano di monitoraggio sul posto).

Riferimento: Livello 4: Analizzare i modelli e migliorare continuamente l'agente

Viaggio 2: Piano di punteggio

Situazione: Si eseguono quattro iterazioni in un agente del supporto tecnico del prodotto. L'accuratezza effettiva rimane al 78% in tutte le quattro esecuzioni. Le modifiche vengono apportate dopo ogni esecuzione, ma non si vede alcun miglioramento.

Passaggio 1: Controllare i modelli (livello 4)

Esaminare il log degli errori in tutte e quattro le iterazioni:

Iterazione Punteggio Modifica applicata Result
1 78% (baseline) -
2 79% Aggiunto "Sii preciso sulle specifiche del prodotto" Nessuna modifica significativa
3 77% Richiamo riorganizzato per mettere prima le istruzioni di precisione Nessuna modifica significativa
4 78% Sono stati aggiunti esempi pratici di risposte corrette relative al prodotto Nessuna modifica significativa

Tendenza: stabile. La correzione non è destinata alla causa principale reale.

Riferimento: Livello 4: Analizzare i modelli e migliorare continuamente l'agente

Passaggio 2: Analizzare i test case con errori

Esaminare i sei errori permanenti in tutte le iterazioni.

Caso di test Fallendo dal Problema osservato
FA-002 Iterazione 1 L'agente cita la pagina delle domande frequenti invece del manuale del prodotto
FA-005 Iterazione 1 L'agente fa riferimento alla pagina delle FAQ invece che al manuale del prodotto.
FA-008 Iterazione 1 L'agente cita la pagina delle domande frequenti invece del manuale del prodotto.
FA-011 Iterazione 1 L'agente cita la pagina delle domande frequenti anziché il manuale del prodotto
FA-014 Iterazione 1 L'agente cita la pagina delle domande frequenti invece del manuale del prodotto.
FA-019 Iterazione 2 L'agente fornisce una risposta parziale dalle domande frequenti, ma ignora dettagli del manuale.

Analisi della concentrazione: Cinque di sei errori (83%) implicano la stessa causa radice: l'agente recupera informazioni dalla pagina domande frequenti anziché dal manuale del prodotto.

Passaggio 3: Nuovo tentativo (livello 2)

Inizialmente, classificare gli errori come problema di configurazione dell'agente: origine errata recuperata.

Applicare più modifiche alla configurazione dell'agente, tra cui la riformulazione della richiesta, il riordinamento e l'aggiunta di esempi. Queste modifiche non comportano miglioramenti misurabili. A questo punto, verificare il guasto rispetto agli indicatori di limitazione della piattaforma.

Indicator Controllo
L'errore persiste in più varianti di richiesta o configurazione Sì. Quattro iterazioni senza modifiche.
Il recupero restituisce in modo coerente documenti non corretti nonostante la configurazione di origine corretta Sì. Le domande frequenti vengono recuperate in modo coerente anziché il manuale del prodotto.

Riclassificazione: Questo problema è una limitazione della piattaforma correlata al posizionamento della ricerca. La piattaforma dà costantemente priorità alle FAQ rispetto al manuale del prodotto per queste query, e ulteriori cambiamenti nei prompt o nelle istruzioni non influiscono sul comportamento della ricerca.

Riferimento: Livello 2: Errori dell'agente di valutazione

Passaggio 4: Correggere (livello 3- Limitazione della piattaforma)

Quando si classifica un errore come limitazione della piattaforma, concentrarsi sulla correzione delle soluzioni alternative e sulla documentazione anziché apportare modifiche alla configurazione dell'agente.

Riferimento: Risposta alle limitazioni della piattaforma

Strategia alternativa: applicare uno o più degli approcci di mitigazione seguenti per ridurre l'impatto:

  • Ristrutturare il manuale del prodotto con intestazioni di sezione più chiare allineate al vocabolario usato nelle query utente.
  • Duplicare le specifiche critiche del prodotto dal manuale nelle domande frequenti per creare percorsi di recupero ridondanti.
  • Rifattorizzare il contenuto manuale in modo che ogni sezione affronti una singola domanda ben definita per migliorare la corrispondenza dei segmenti di ricerca.

Questi approcci mirano a influenzare il comportamento di recupero senza basarsi sulle modifiche alle istruzioni o alle richieste.

Escalation e tracciamento: Se la limitazione persiste, documentare e inoltrare il problema al team della piattaforma.

  • Documentare la limitazione come indicato di seguito: "Le query per le specifiche del prodotto portano coerentemente alla pagina delle domande frequenti (ultimo aggiornamento: <data>, <n> pagine) invece del manuale del prodotto (ultimo aggiornamento: <data>, <N> pagine), nonostante il manuale contenga le informazioni autorevoli".
  • Fornire prove di supporto: includere più test case che mostrano la query, l'origine prevista e l'origine effettiva recuperata.
  • Inviare per l'indagine.
  • Condividere la limitazione documentata e le prove con il team della piattaforma per il tracciamento e il monitoraggio.

Passaggio 5: Verificare

Dopo la ristrutturazione del manuale del prodotto e l'aggiunta di voci di domande frequenti ridondanti, eseguire nuovamente il set di valutazione pertinente per verificare l'impatto.

Prima Dopo
78% (invariato tra quattro iterazioni) 89%

Valutazione: La soluzione alternativa migliora le prestazioni complessive. Un errore rimane (FA-019). La query è troppo ambigua per recuperare in modo affidabile l'origine corretta, anche con contenuto ristrutturato. Questo errore viene registrato come limitazione nota.

Passaggio 6: Documento

Aggiornare il log degli errori in modo da riflettere la classificazione finale e i risultati.

Caso di test Tipo di causa radice Problema osservato Modifica applicata Risolto
FA-002, 005, 008, 011, 014 Limitazione della piattaforma Il ranking di recupero assegna priorità alle FAQ rispetto al manuale del prodotto Intestazioni del manuale ristrutturate; specifiche critiche duplicate nelle FAQ
FA-019 Limitazione della piattaforma La query ambigua non è in grado di recuperare in modo affidabile l'origine corretta Documentata come limitazione nota No

Takeaway chiave: Se i punteggi di valutazione rimangono invariati attraverso più modifiche ai prompt o alle istruzioni, è improbabile che la causa radice sia il prompt. Convalidare il comportamento dell'infrastruttura e della piattaforma prima di investire di più nella progettazione dei prompt.

Percorso 3: Regressione post-aggiornamento

Situazione: Hai aggiornato la richiesta di sistema per migliorare il tono e l'empatia. I punteggi di tono sono aumentati, ma l'accuratezza effettiva è diminuita al di sotto della soglia di blocco, introducendo una regressione.

Prima della modifica:

Set di valutazione Punteggio
Accuratezza dei fatti 91%
Tono e qualità 83%
Tutti gli altri Al di sopra della soglia

È stata aggiunta l'istruzione seguente alla richiesta di sistema: "Confermare sempre la preoccupazione del cliente e mostrare empatia prima di fornire la risposta. Iniziare ogni risposta convalidando l'esperienza del cliente."

Dopo la modifica:

Set di valutazione Prima Dopo Delta
Accuratezza dei fatti 91% 76% -15%
Tono e qualità 83% 91% +8%

Passaggio 1: Interpretare (livello 1)

L'accuratezza effettiva è ora inferiore alla soglia di blocco dell'80%. Questa modifica introduce una regressione e blocca la prontezza.

Riferimento: Livello 1: Interpretare i punteggi e identificare gli errori

Passaggio 2: Controllare i modelli (livello 4)

Corrispondenza del modello di segnale incrociato: il tono migliora mentre l'accuratezza si riduce.

Causa radice indicata: Conflitto di istruzioni.

Le linee guida per il tono appena aggiunte competono con istruzioni di accuratezza per l'attenzione del modello.

Riferimento: Livello 4: Analizzare i modelli e migliorare continuamente l'agente

Passaggio 3: Valutare i nuovi errori (livello 2)

Esaminare i test case di accuratezza fattuale che sono stati superati prima della modifica e ora falliscono.

Test case FA-007:

  • Input: "Qual è la dimensione massima di caricamento del file?"
  • Previsto: "La dimensione massima di caricamento dei file è di 25 MB per gli account standard e 100 MB per gli account aziendali".
  • Agente prima di: "La dimensione massima di caricamento dei file è di 25 MB per gli account standard e 100 MB per gli account aziendali".
  • Agente dopo: "Capisco completamente la tua preoccupazione per le dimensioni di caricamento dei file: può essere frustrante quando stai cercando di caricare documenti importanti! Voglio assicurarvi di avere tutte le informazioni necessarie. La dimensione massima del caricamento è di 25 MB per i piani standard."

Passaggio 1: Verificare la valutazione: La risposta prevista è corretta e la valutazione è valida. La risposta post-aggiornamento omette i dettagli dell'account aziendale.

Passaggio 2. Diagnosi: La nuova istruzione di tono richiede un preambolo empatico in ogni risposta. Questo requisito consuma il budget di risposta e l'attenzione del modello, portando a risposte di fatto incomplete.

Classificazione: problema di configurazione dell'agente. Conflitto di istruzioni tra linee guida relative al tono e all'accuratezza.

Riferimento: Livello 2: Errori dell'agente di valutazione

Passaggio 4: Correggere (livello 3)

Il problema non è la guida sul tono, ma le priorità concorrenti nello prompt del sistema. La correzione è incentrata sulla separazione e la definizione delle priorità delle istruzioni.

Istruzione precedente (singola, concorrente): "Conferma sempre la preoccupazione del cliente e mostra empatia prima di fornire la tua risposta. Iniziare ogni risposta convalidando l'esperienza del cliente."

Nuova istruzione (separata, con priorità): "Includere sempre la risposta completa alla domanda del cliente. Non omettere i dettagli per brevità. Inoltre, quando il cliente esprime frustrazione o preoccupazione, darne brevemente riconoscimento.

Modifiche chiave:

  • L'accuratezza viene assegnata in modo esplicito come priorità.
  • La completezza delle risposte fattuali viene dichiarata direttamente.
  • L'empatia è condizionale piuttosto che universale.
  • "Brevemente" vincola l'empatia per evitare il troncamento del contenuto.

Riferimento: Livello 3: Eseguire il mapping dei modelli di errore alle strategie di correzione

Passaggio 5: Verificare

Rieseguire la suite di valutazione completa, perché le modifiche alle richieste di sistema possono avere un impatto ampio.

Set di valutazione Prima della modifica Dopo la regressione Dopo la modifica
Accuratezza dei fatti 91% 76% 90%
Tono e qualità 83% 91% 89%
Tutti gli altri Al di sopra della soglia Al di sopra della soglia Al di sopra della soglia

Valutazione: Entrambi i segnali ora soddisfano le soglie di blocco. Tone non torna completamente al suo picco, ma rimane ampiamente al di sopra della soglia di blocco del 75% e migliora sulla soglia di base originale.

Passaggio 6: Documento

Caso di test Tipo di causa radice Problema osservato Modifica applicata Risolto
FA-007, FA-012, FA-018 (e altri) Configurazione dell'agente Le linee guida sul tono hanno prevalso sulla completezza fattuale. Prompt ristrutturato per classificare in ordine di priorità l'accuratezza e applicare l'empatia condizionale

Punto chiave: Convalidare sempre le modifiche al prompt del sistema contro la suite di valutazione completa, non solo il segnale di destinazione. Le istruzioni competono per l'attenzione del modello e i miglioramenti in un'area possono introdurre regressioni in altri.

Modello da monitorare: Questo scenario è un'istanza del problema del budget delle istruzioni. Man mano che i prompt aumentano, i conflitti nelle istruzioni diventano più probabili. Il consolidamento periodico e la semplificazione contribuiscono a mantenere la stabilità.

Modelli comuni tra percorsi

Ogni percorso inizia da uno scenario diverso per illustrare un percorso di diagnostica distinto. Per vedere come un singolo agente procede nel ciclo di vita completo della valutazione, ovvero interpretazione del punteggio, valutazione degli errori, correzione e verifica, vedere Journey 1, che fornisce la procedura dettagliata end-to-end più completa.

Questa tabella evidenzia i modelli ricorrenti osservati in tutti i percorsi e le lezioni pratiche che rafforzano.

Modello Dove appare Punto chiave
Verificare la valutazione prima dell'agente Viaggio 1 Una fonte comune di lavoro sprecato è la risoluzione dei problemi del comportamento dell'agente quando la valutazione stessa non è corretta.
I punteggi piatti indicano una causa radice classificata in modo errato Viaggio 2 Se la correzione ripetuta non migliora i risultati, riclassificare il problema. Potresti stare affrontando la causa principale sbagliata.
Rieseguire la suite di valutazione completa dopo le modifiche richieste Viaggio 3 Le modifiche tempestive possono influire su più segnali di qualità. Verificare sempre la presenza di regressioni all'esterno dell'area di destinazione.
Documentare i risultati e le decisioni Tutti i viaggi La gestione di un log degli errori impedisce di ritrovare le stesse cause radice nelle iterazioni successive.
Le lacune note possono essere accettabili Viaggio 1 (KG-007), Viaggio 2 (FA-019) Non tutti gli errori devono essere risolti prima della spedizione. Documentare le lacune note e monitorarle nel tempo.

Passaggi successivi

Dopo aver esaminato questi esempi, scegliere l'azione successiva più adatta alla situazione corrente: