Condividi tramite


Tenere traccia degli errori di valutazione con modelli di registrazione strutturati

Documentare gli errori di valutazione crea conoscenze istituzionali che accelerano le sessioni di valutazione future. Quando si verifica di nuovo lo stesso tipo di errore, si sa già cosa controllare prima invece di ritrovare le stesse cause radice.

Usare questi modelli strutturati per registrare l'analisi degli errori dalle sessioni di valutazione. Scegliere la versione più adatta alle esigenze e al flusso di lavoro del team.

Importante

Completare prima la valutazione degli errori . Documentare gli errori durante la diagnosi.

Scegliere la versione del modello più adatta al team:

  • Versione leggera per i team di piccole dimensioni che eseguano l'iterazione su un singolo agente
  • Versione dettagliata per team più grandi o quando si creano conoscenze istituzionali tra gli agenti

Log dei guasti leggero

Il log degli errori leggero è destinato a team di piccole dimensioni o a sessioni di valutazione rapida.

Copiare questa tabella e compilarla durante le sessioni di valutazione. Aggiungere una riga per ogni errore.

Caso di test Tipo di causa radice Problema osservato Modifica applicata Risolto
___ Configurazione della valutazione, configurazione dell'agente o limitazione della piattaforma ___ ___ Sì/ No / Parziale
___ ___ ___ ___ ___
___ ___ ___ ___ ___

Esempio (compilato)

Caso di test Tipo di causa radice Problema osservato Modifica applicata Risolto
KG-003 Configurazione della valutazione Risposta prevista obsoleta (vecchia politica di reso: 30 giorni; la politica attuale è 15 giorni lavorativi) Aggiornamento del valore previsto a "15 giorni lavorativi"
KG-005 Configurazione dell'agente I dettagli della garanzia forniti dall'agente non sono disponibili in alcuna fonte di informazioni Aggiunta dell'istruzione di base: "Solo risposta da fonti di informazioni"
TI-002 Limitazione della piattaforma La classificazione di recupero ignora il titolo esatto del documento; Domande frequenti sempre recuperate anziché manuale del prodotto Intestazioni del documento ristrutturate come soluzione alternativa; è stata effettuata un'escalation al team della piattaforma Parziale
FA-019 Limitazione della piattaforma La query ambigua non è in grado di recuperare in modo affidabile l'origine corretta Documentata come limitazione nota; monitoraggio nell'ambiente di produzione No (nessun divario noto)

Registro dei guasti dettagliato

Il log dettagliato degli errori è destinato ai team che devono condividere i risultati, tenere traccia dello stato tra sprint o creare conoscenze istituzionali tra più agenti.

Annotazioni

Scaricare una versione CSV di questo modello.

Record per guasto

Campo Valore
Test case ID (dal set di valutazione, ad esempio KG-003)
Set di valutazione (a quale set di valutazione appartiene questo record)
Segnale di qualità (accuratezza dei fatti, nozioni di base, chiamata degli strumenti e così via)
Tipo di causa radice (Setup di valutazione, Configurazione agente, Limitazione della piattaforma, Integrazione degli strumenti, Non classificato)
Dettagli della causa radice (sottotipo specifico, ad esempio "risposta prevista obsoleta", "ambiguità della descrizione dello strumento")
Problema osservato (che cosa ha fatto l'agente rispetto a quello che avrebbe dovuto fare)
Percorso di diagnostica (quali domande di triage hanno portato a questa classificazione, ad esempio "Passaggio 1, Q1.2 — risposta prevista non aggiornata")
Azione di correzione (cosa è stato modificato; dettagli specifici da riprodurre)
Stato (Aperto, In Corso, Risolto, Non Risolvere)
Non risolverà la logica (se Non risolverà: perché e quale monitoraggio è in atto)
Verifica (risultato riesecuzione: superato o fallito, data, numero di iterazione)
Data di triage ___
Valutazione da parte di ___

Esempio (compilato)

Campo Valore
Test case ID KG-005
Set di valutazione Nozioni di base
Segnale di qualità Nozioni di base
Tipo di causa radice Configurazione dell'agente
Dettagli della causa radice Informazioni non corrette, contenuto generato dall'agente non in alcuna fonte di conoscenza
Problema osservato L'agente ha richiesto "garanzia estesa di 3 anni che copre tutte le parti e il lavoro" quando la fonte dice "garanzia standard di 2 anni"
Percorso di diagnostica Passaggio 1 superato (valutazione valida) → Passaggio 2, Q2.4 (risposte senza origine) + Q2.5 (fonte incondetta)
Azione di correzione Aggiunta al prompt di sistema: "Rispondi solo in base alle informazioni trovate nelle fonti di conoscenza. Se le informazioni non sono disponibili, ditelo.
Stato Risolto
Non risolverà la logica N/A
Verifica Pass (iterazione 2, 15 febbraio)
Data di assegnazione priorità 14 Febbraio
Valutazione da parte di [nome]

Log di riepilogo dell'iterazione

Tenere traccia dei punteggi e delle modifiche tra iterazioni per l'analisi delle tendenze.

Iterazione Date Modifica apportata Set di valutazione interessato Punteggio prima Punteggio dopo Delta Note
1 ___ Baseline (nessuna modifica) Tutti - ___% - Esecuzione iniziale
2 ___ ___ ___ ___% ___% ___ ___
3 ___ ___ ___ ___% ___% ___ ___

Riepilogo della concentrazione

Dopo ogni sessione di valutazione, contare i tipi di causa radice per trovare i modelli di concentrazione.

Tipo di causa radice Count % del totale Sistemica?
Configurazione della valutazione ___ ___% (80%+ = sospendere il lavoro dell'agente, correggere prima le valutazioni)
Configurazione dell'agente ___ ___% (superiore all'80% in un'area = problema architettonico)
Limitazione della piattaforma ___ ___% (80%+ = rivaluta l'ambito, inoltrare)
Strumento o integrazione ___ ___% (correzione backend, non agente)
Non classificato ___ ___% (monitor; potrebbe diventare classificabile con più dati)
Totale ___ 100%

Procedure consigliate per la gestione del log

  • Aggiornamento in tempo reale durante il triage. Non eseguire il batch degli aggiornamenti dopo la sessione.
  • Registrare anche risultati negativi , ad esempio "provato X, non ha aiutato". Questa procedura consente di evitare i tentativi di ripetizione degli approcci non riusciti.
  • Esaminare prima di ogni iterazione. Verificare la presenza di modelli prima di risolvere singoli errori.
  • Condividi con il team. Condividere il log con il team in modo che tutti vedano i risultati precedenti.
  • Archiviare, non eliminare. Mantenere le voci risolte per l'analisi dei modelli. Spostare le voci in una sezione di archiviazione se il log attivo diventa lungo.

Passaggi successivi

Dopo aver documentato gli errori: