Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
I walkthrough end-to-end illustrano come i livelli del framework di valutazione collaborano nella pratica. Ogni percorso inizia da uno scenario di valutazione diverso e segue un percorso di diagnostica distinto.
Le procedure dettagliate illustrano come applicare il framework passo dopo passo. Usare questi esempi per comprendere come passare dai risultati della valutazione alla diagnosi, alla correzione e alla verifica in scenari di valutazione degli agenti reali.
Suggerimento
Prima di esaminare questi esempi, esaminare gli obiettivi del framework, inclusi i concetti e i principi di base.
| Viaggio | Situazione iniziale | Cosa dimostra |
|---|---|---|
| Viaggio 1 | Prima esecuzione della valutazione | Flusso end-to-end: interpretare → assegnare priorità → valutare → correggere → verificare |
| Viaggio 2 | I punteggi si stabilizzano dopo più iterazioni | Soluzioni alternative per l'analisi dei criteri, la riclassificazione e la limitazione della piattaforma |
| Viaggio 3 | I punteggi regrediscono dopo un cambiamento | Rilevamento della regressione, diagnosi dei conflitti di istruzioni e risoluzione dei compromessi |
Annotazioni
Questi esempi sono illustrativi e basati su modelli comuni osservati in più esecuzioni di valutazione dei clienti. I test case, i punteggi e i dettagli dell'agente sono compositi rappresentativi anziché record di una singola interazione. Gli approcci diagnostici e le strategie di correzione mostrate riflettono le procedure usate nelle implementazioni reali.
Fase 1: Prima esecuzione del test
Esegui la suite di valutazione per la prima volta su un agente di supporto clienti. Ecco i risultati:
| Set di valutazione | Tasso di superamento |
|---|---|
| Sicurezza e dati personali | 100% |
| Domande e risposte di Core Business | 87% |
| Nozioni di base | 71% |
| Chiamata allo strumento | 92% |
| Attivare il routing | 88% |
| Tono e qualità | 83% |
| Escalazione | 90% |
| Nel complesso | 85% |
Passaggio 1: Interpretare i punteggi (livello 1)
Usare la tabella di interpretazione dei punteggi per calibrare le soglie e identificare quali set di valutazione sono inferiori alle soglie di blocco.
| Set di valutazione | Punteggio | Soglia | Condizione |
|---|---|---|---|
| Sicurezza e dati personali | 100% | 95% bloccaggio | Pass |
| Domande e risposte di Core Business | 87% | blocco dell'80% | Pass |
| Nozioni di base | 71% | 80% bloccaggio | Di seguito è riportato il blocco |
| Chiamata allo strumento | 92% | 85% di blocco | Pass |
| Attivare il routing | 88% | 80% blocco | Pass |
| Tono e qualità | 83% | 75% bloccaggio | Pass |
| Escalazione | 90% | 85% di blocco | Pass |
Valutazione dell'idoneità: iterazione. Il radicamento della conoscenza è al di sotto della sua soglia di blocco. Concentrare gli sforzi di correzione lì.
Passaggio 2: Classificare in ordine di priorità gli errori (livello 2, passaggio 0)
Situazione: Il knowledge grounding ha sette test case. Due test case hanno esito negativo: KG-003 e KG-005. Entrambi i test case si trovano in un set di valutazione aziendale principale, quindi hanno la priorità 2. Poiché ci sono solo due elementi, eseguire una valutazione preliminare di entrambi.
Riferimento: Classificare in ordine di priorità gli errori (livello 2, passaggio 0)
Passaggio 3: Valutare KG-003 (livello 2, passaggi 1-2)
Test case KG-003:
- Input di esempio: "Qual è il criterio di restituzione?"
- Risposta prevista: "Offriamo una finestra di ritorno di 30 giorni per tutti gli acquisti."
- Risposta dell'agente: "Il nostro criterio di restituzione consente i ritorni entro 15 giorni lavorativi dall'acquisto."
- Metodo di valutazione: Corrispondenza parola chiave
- Risultato: Esito negativo (previsto "30 giorni", l'agente ha detto "15 giorni lavorativi")
Verificare la configurazione della valutazione (passaggio 1 del livello 2):
| Domanda | Risposta | Result |
|---|---|---|
| La risposta dell'agente è accettabile? | È necessario controllare il documento di origine. | Controllare prima l'origine. |
| La risposta prevista è ancora corrente? | Il documento di origine indica "15 giorni lavorativi". I criteri sono stati aggiornati. | No. La risposta prevista è obsoleta. |
Classificazione: problema di configurazione della valutazione. Risposta prevista obsoleta. L'agente è corretto. La valutazione non è corretta.
Passaggio 4: Valutare KG-005 (livello 2, passaggi 1-2)
Test case KG-005:
- Input di esempio: "Il piano Premium include una garanzia estesa?"
- Risposta prevista: "Il piano Premium include una garanzia standard di due anni. Le opzioni di garanzia estesa sono disponibili separatamente per l'acquisto."
- Risposta dell'agente: "Sì, il piano Premium include una garanzia estesa di tre anni che copre tutte le parti e il lavoro."
- Metodo di valutazione: Confrontare il significato
- Risultato: Esito negativo (dettagli della garanzia falsificati dall'agente)
Verificare la configurazione della valutazione (passaggio 1 del livello 2):
| Domanda | Risposta | Result |
|---|---|---|
| La risposta dell'agente è accettabile? | No. "Garanzia estesa di tre anni" è inventata. | Continuare |
| La risposta prevista è attuale? | Sì. La fonte conferma la garanzia standard di due anni. | Continuare |
| Il test case è realistico? | Sì. Domanda comune del cliente. | Continuare |
| Potrebbe essere corretta una risposta alternativa? | No. I dettagli della garanzia sono reali. | Continuare |
| Il metodo di valutazione è appropriato? | Sì.Il significato del confronto è corretto per l'accuratezza semantica. | La valutazione è valida. |
Diagnosticare l'agente (passaggio 2 del livello 2):
| Domanda | Risposta |
|---|---|
| Il contenuto di origine non è corretto? | No. Fonte dice "garanzia standard di due anni". |
| L'agente ha contraddetto le informazioni nella fonte? | Sì. Fonte dice "garanzia standard di due anni", ma l'agente ha detto "garanzia estesa di tre anni". |
| L'agente ha risposto senza usare alcuna origine? | Probabilmente sì. La "garanzia estesa di tre anni che copre tutte le parti e il lavoro" non esiste in alcuna fonte. |
Classificazione: problema di configurazione dell'agente. Gap di conoscenze. L'agente ha prodotto i dettagli della garanzia che non sono presenti nelle fonti di conoscenza configurate.
Passaggio 5: Correggere (livello 3)
KG-003 (correzione della configurazione di valutazione):
- Modifica: Aggiornare il valore previsto da "finestra di restituzione di 30 giorni" a "15 giorni lavorativi"
- Riesegua: Solo KG-003
- Aspettare: Passare
KG-005 (correzione della configurazione dell'agente):
- Cambiare: Aggiungere istruzioni di ancoraggio al prompt del sistema: "Rispondere solo in base alle informazioni trovate nelle fonti di conoscenza. Se le informazioni non sono disponibili, ditelo.
- Riesegua: Valutazione del set completo di conoscenze (la modifica della configurazione dell'agente può avere effetti più ampi)
- Aspettare: KG-005 passa. Altri test case non devono regredire.
Passaggio 6: Verificare
Dopo entrambe le modifiche, eseguire di nuovo il set di valutazione di base delle conoscenze:
| Prima | Dopo |
|---|---|
| 71% (5/7 superati) | 86% (6/7 superati) |
Valutazione: Il livello di conoscenza di base è ora al di sopra della soglia di blocco dell'80%. Un guasto (KG-007) persiste e non blocca la prontezza. Esaminarlo nell'iterazione successiva.
Passaggio 7: Documento (livello 4)
Registrare nel log degli errori:
| Caso di test | Tipo di causa radice | Problema osservato | Modifica applicata | Risolto |
|---|---|---|---|---|
| KG-003 | Configurazione della valutazione | Risposta prevista non aggiornata (i criteri sono stati modificati da 30 giorni a 15 giorni lavorativi). | Valore previsto aggiornato | Sì |
| KG-005 | Configurazione dell'agente | Dettagli di garanzia non corretti che non sono presenti in alcuna origine. | Aggiunta dell'istruzione di base al prompt del sistema | Sì |
Nota modello: Verificare i valori previsti per i documenti di origine prima dell'esecuzione di ogni valutazione. Aggiungi questo passaggio all'elenco di controllo di prevalutazione.
Verifica della preparazione: Tutti i set di valutazione superano ora le soglie di blocco.
Valutazione dell'idoneità: Distribuire l'agente con lacune note (KG-007 documentato, piano di monitoraggio sul posto).
Riferimento: Livello 4: Analizzare i modelli e migliorare continuamente l'agente
Viaggio 2: Piano di punteggio
Situazione: Si eseguono quattro iterazioni in un agente del supporto tecnico del prodotto. L'accuratezza effettiva rimane al 78% in tutte le quattro esecuzioni. Le modifiche vengono apportate dopo ogni esecuzione, ma non si vede alcun miglioramento.
Passaggio 1: Controllare i modelli (livello 4)
Esaminare il log degli errori in tutte e quattro le iterazioni:
| Iterazione | Punteggio | Modifica applicata | Result |
|---|---|---|---|
| 1 | 78% | (baseline) | - |
| 2 | 79% | Aggiunto "Sii preciso sulle specifiche del prodotto" | Nessuna modifica significativa |
| 3 | 77% | Richiamo riorganizzato per mettere prima le istruzioni di precisione | Nessuna modifica significativa |
| 4 | 78% | Sono stati aggiunti esempi pratici di risposte corrette relative al prodotto | Nessuna modifica significativa |
Tendenza: stabile. La correzione non è destinata alla causa principale reale.
Riferimento: Livello 4: Analizzare i modelli e migliorare continuamente l'agente
Passaggio 2: Analizzare i test case con errori
Esaminare i sei errori permanenti in tutte le iterazioni.
| Caso di test | Fallendo dal | Problema osservato |
|---|---|---|
| FA-002 | Iterazione 1 | L'agente cita la pagina delle domande frequenti invece del manuale del prodotto |
| FA-005 | Iterazione 1 | L'agente fa riferimento alla pagina delle FAQ invece che al manuale del prodotto. |
| FA-008 | Iterazione 1 | L'agente cita la pagina delle domande frequenti invece del manuale del prodotto. |
| FA-011 | Iterazione 1 | L'agente cita la pagina delle domande frequenti anziché il manuale del prodotto |
| FA-014 | Iterazione 1 | L'agente cita la pagina delle domande frequenti invece del manuale del prodotto. |
| FA-019 | Iterazione 2 | L'agente fornisce una risposta parziale dalle domande frequenti, ma ignora dettagli del manuale. |
Analisi della concentrazione: Cinque di sei errori (83%) implicano la stessa causa radice: l'agente recupera informazioni dalla pagina domande frequenti anziché dal manuale del prodotto.
Passaggio 3: Nuovo tentativo (livello 2)
Inizialmente, classificare gli errori come problema di configurazione dell'agente: origine errata recuperata.
Applicare più modifiche alla configurazione dell'agente, tra cui la riformulazione della richiesta, il riordinamento e l'aggiunta di esempi. Queste modifiche non comportano miglioramenti misurabili. A questo punto, verificare il guasto rispetto agli indicatori di limitazione della piattaforma.
| Indicator | Controllo |
|---|---|
| L'errore persiste in più varianti di richiesta o configurazione | Sì. Quattro iterazioni senza modifiche. |
| Il recupero restituisce in modo coerente documenti non corretti nonostante la configurazione di origine corretta | Sì. Le domande frequenti vengono recuperate in modo coerente anziché il manuale del prodotto. |
Riclassificazione: Questo problema è una limitazione della piattaforma correlata al posizionamento della ricerca. La piattaforma dà costantemente priorità alle FAQ rispetto al manuale del prodotto per queste query, e ulteriori cambiamenti nei prompt o nelle istruzioni non influiscono sul comportamento della ricerca.
Riferimento: Livello 2: Errori dell'agente di valutazione
Passaggio 4: Correggere (livello 3- Limitazione della piattaforma)
Quando si classifica un errore come limitazione della piattaforma, concentrarsi sulla correzione delle soluzioni alternative e sulla documentazione anziché apportare modifiche alla configurazione dell'agente.
Riferimento: Risposta alle limitazioni della piattaforma
Strategia alternativa: applicare uno o più degli approcci di mitigazione seguenti per ridurre l'impatto:
- Ristrutturare il manuale del prodotto con intestazioni di sezione più chiare allineate al vocabolario usato nelle query utente.
- Duplicare le specifiche critiche del prodotto dal manuale nelle domande frequenti per creare percorsi di recupero ridondanti.
- Rifattorizzare il contenuto manuale in modo che ogni sezione affronti una singola domanda ben definita per migliorare la corrispondenza dei segmenti di ricerca.
Questi approcci mirano a influenzare il comportamento di recupero senza basarsi sulle modifiche alle istruzioni o alle richieste.
Escalation e tracciamento: Se la limitazione persiste, documentare e inoltrare il problema al team della piattaforma.
- Documentare la limitazione come indicato di seguito: "Le query per le specifiche del prodotto portano coerentemente alla pagina delle domande frequenti (ultimo aggiornamento: <data>, <n> pagine) invece del manuale del prodotto (ultimo aggiornamento: <data>, <N> pagine), nonostante il manuale contenga le informazioni autorevoli".
- Fornire prove di supporto: includere più test case che mostrano la query, l'origine prevista e l'origine effettiva recuperata.
- Inviare per l'indagine.
- Condividere la limitazione documentata e le prove con il team della piattaforma per il tracciamento e il monitoraggio.
Passaggio 5: Verificare
Dopo la ristrutturazione del manuale del prodotto e l'aggiunta di voci di domande frequenti ridondanti, eseguire nuovamente il set di valutazione pertinente per verificare l'impatto.
| Prima | Dopo |
|---|---|
| 78% (invariato tra quattro iterazioni) | 89% |
Valutazione: La soluzione alternativa migliora le prestazioni complessive. Un errore rimane (FA-019). La query è troppo ambigua per recuperare in modo affidabile l'origine corretta, anche con contenuto ristrutturato. Questo errore viene registrato come limitazione nota.
Passaggio 6: Documento
Aggiornare il log degli errori in modo da riflettere la classificazione finale e i risultati.
| Caso di test | Tipo di causa radice | Problema osservato | Modifica applicata | Risolto |
|---|---|---|---|---|
| FA-002, 005, 008, 011, 014 | Limitazione della piattaforma | Il ranking di recupero assegna priorità alle FAQ rispetto al manuale del prodotto | Intestazioni del manuale ristrutturate; specifiche critiche duplicate nelle FAQ | Sì |
| FA-019 | Limitazione della piattaforma | La query ambigua non è in grado di recuperare in modo affidabile l'origine corretta | Documentata come limitazione nota | No |
Takeaway chiave: Se i punteggi di valutazione rimangono invariati attraverso più modifiche ai prompt o alle istruzioni, è improbabile che la causa radice sia il prompt. Convalidare il comportamento dell'infrastruttura e della piattaforma prima di investire di più nella progettazione dei prompt.
Percorso 3: Regressione post-aggiornamento
Situazione: Hai aggiornato la richiesta di sistema per migliorare il tono e l'empatia. I punteggi di tono sono aumentati, ma l'accuratezza effettiva è diminuita al di sotto della soglia di blocco, introducendo una regressione.
Prima della modifica:
| Set di valutazione | Punteggio |
|---|---|
| Accuratezza dei fatti | 91% |
| Tono e qualità | 83% |
| Tutti gli altri | Al di sopra della soglia |
È stata aggiunta l'istruzione seguente alla richiesta di sistema: "Confermare sempre la preoccupazione del cliente e mostrare empatia prima di fornire la risposta. Iniziare ogni risposta convalidando l'esperienza del cliente."
Dopo la modifica:
| Set di valutazione | Prima | Dopo | Delta |
|---|---|---|---|
| Accuratezza dei fatti | 91% | 76% | -15% |
| Tono e qualità | 83% | 91% | +8% |
Passaggio 1: Interpretare (livello 1)
L'accuratezza effettiva è ora inferiore alla soglia di blocco dell'80%. Questa modifica introduce una regressione e blocca la prontezza.
Riferimento: Livello 1: Interpretare i punteggi e identificare gli errori
Passaggio 2: Controllare i modelli (livello 4)
Corrispondenza del modello di segnale incrociato: il tono migliora mentre l'accuratezza si riduce.
Causa radice indicata: Conflitto di istruzioni.
Le linee guida per il tono appena aggiunte competono con istruzioni di accuratezza per l'attenzione del modello.
Riferimento: Livello 4: Analizzare i modelli e migliorare continuamente l'agente
Passaggio 3: Valutare i nuovi errori (livello 2)
Esaminare i test case di accuratezza fattuale che sono stati superati prima della modifica e ora falliscono.
Test case FA-007:
- Input: "Qual è la dimensione massima di caricamento del file?"
- Previsto: "La dimensione massima di caricamento dei file è di 25 MB per gli account standard e 100 MB per gli account aziendali".
- Agente prima di: "La dimensione massima di caricamento dei file è di 25 MB per gli account standard e 100 MB per gli account aziendali".
- Agente dopo: "Capisco completamente la tua preoccupazione per le dimensioni di caricamento dei file: può essere frustrante quando stai cercando di caricare documenti importanti! Voglio assicurarvi di avere tutte le informazioni necessarie. La dimensione massima del caricamento è di 25 MB per i piani standard."
Passaggio 1: Verificare la valutazione: La risposta prevista è corretta e la valutazione è valida. La risposta post-aggiornamento omette i dettagli dell'account aziendale.
Passaggio 2. Diagnosi: La nuova istruzione di tono richiede un preambolo empatico in ogni risposta. Questo requisito consuma il budget di risposta e l'attenzione del modello, portando a risposte di fatto incomplete.
Classificazione: problema di configurazione dell'agente. Conflitto di istruzioni tra linee guida relative al tono e all'accuratezza.
Riferimento: Livello 2: Errori dell'agente di valutazione
Passaggio 4: Correggere (livello 3)
Il problema non è la guida sul tono, ma le priorità concorrenti nello prompt del sistema. La correzione è incentrata sulla separazione e la definizione delle priorità delle istruzioni.
Istruzione precedente (singola, concorrente): "Conferma sempre la preoccupazione del cliente e mostra empatia prima di fornire la tua risposta. Iniziare ogni risposta convalidando l'esperienza del cliente."
Nuova istruzione (separata, con priorità): "Includere sempre la risposta completa alla domanda del cliente. Non omettere i dettagli per brevità. Inoltre, quando il cliente esprime frustrazione o preoccupazione, darne brevemente riconoscimento.
Modifiche chiave:
- L'accuratezza viene assegnata in modo esplicito come priorità.
- La completezza delle risposte fattuali viene dichiarata direttamente.
- L'empatia è condizionale piuttosto che universale.
- "Brevemente" vincola l'empatia per evitare il troncamento del contenuto.
Riferimento: Livello 3: Eseguire il mapping dei modelli di errore alle strategie di correzione
Passaggio 5: Verificare
Rieseguire la suite di valutazione completa, perché le modifiche alle richieste di sistema possono avere un impatto ampio.
| Set di valutazione | Prima della modifica | Dopo la regressione | Dopo la modifica |
|---|---|---|---|
| Accuratezza dei fatti | 91% | 76% | 90% |
| Tono e qualità | 83% | 91% | 89% |
| Tutti gli altri | Al di sopra della soglia | Al di sopra della soglia | Al di sopra della soglia |
Valutazione: Entrambi i segnali ora soddisfano le soglie di blocco. Tone non torna completamente al suo picco, ma rimane ampiamente al di sopra della soglia di blocco del 75% e migliora sulla soglia di base originale.
Passaggio 6: Documento
| Caso di test | Tipo di causa radice | Problema osservato | Modifica applicata | Risolto |
|---|---|---|---|---|
| FA-007, FA-012, FA-018 (e altri) | Configurazione dell'agente | Le linee guida sul tono hanno prevalso sulla completezza fattuale. | Prompt ristrutturato per classificare in ordine di priorità l'accuratezza e applicare l'empatia condizionale | Sì |
Punto chiave: Convalidare sempre le modifiche al prompt del sistema contro la suite di valutazione completa, non solo il segnale di destinazione. Le istruzioni competono per l'attenzione del modello e i miglioramenti in un'area possono introdurre regressioni in altri.
Modello da monitorare: Questo scenario è un'istanza del problema del budget delle istruzioni. Man mano che i prompt aumentano, i conflitti nelle istruzioni diventano più probabili. Il consolidamento periodico e la semplificazione contribuiscono a mantenere la stabilità.
Modelli comuni tra percorsi
Ogni percorso inizia da uno scenario diverso per illustrare un percorso di diagnostica distinto. Per vedere come un singolo agente procede nel ciclo di vita completo della valutazione, ovvero interpretazione del punteggio, valutazione degli errori, correzione e verifica, vedere Journey 1, che fornisce la procedura dettagliata end-to-end più completa.
Questa tabella evidenzia i modelli ricorrenti osservati in tutti i percorsi e le lezioni pratiche che rafforzano.
| Modello | Dove appare | Punto chiave |
|---|---|---|
| Verificare la valutazione prima dell'agente | Viaggio 1 | Una fonte comune di lavoro sprecato è la risoluzione dei problemi del comportamento dell'agente quando la valutazione stessa non è corretta. |
| I punteggi piatti indicano una causa radice classificata in modo errato | Viaggio 2 | Se la correzione ripetuta non migliora i risultati, riclassificare il problema. Potresti stare affrontando la causa principale sbagliata. |
| Rieseguire la suite di valutazione completa dopo le modifiche richieste | Viaggio 3 | Le modifiche tempestive possono influire su più segnali di qualità. Verificare sempre la presenza di regressioni all'esterno dell'area di destinazione. |
| Documentare i risultati e le decisioni | Tutti i viaggi | La gestione di un log degli errori impedisce di ritrovare le stesse cause radice nelle iterazioni successive. |
| Le lacune note possono essere accettabili | Viaggio 1 (KG-007), Viaggio 2 (FA-019) | Non tutti gli errori devono essere risolti prima della spedizione. Documentare le lacune note e monitorarle nel tempo. |
Passaggi successivi
Dopo aver esaminato questi esempi, scegliere l'azione successiva più adatta alla situazione corrente:
- Iniziare con l'interpretazione del punteggio se si dispone di risultati di valutazione pronti per la valutazione.
- Inizia la valutazione dei fallimenti se è necessario diagnosticare i fallimenti di casi di test specifici.
- Applicare l'analisi dei modelli se si verificano più guasti e si vogliono identificare i problemi sistemici.
- Configurare la registrazione degli errori per tenere traccia di decisioni, risultati e problemi ricorrenti.
- Tornare agli obiettivi del framework per esaminare l'approccio completo alla valutazione.