Merk
Tilgang til denne siden krever autorisasjon. Du kan prøve å logge på eller endre kataloger.
Tilgang til denne siden krever autorisasjon. Du kan prøve å endre kataloger.
Når du tolker evalueringsresultater og identifiserer fokusområder, må du finne ut hvorfor individuelle testtilfeller mislyktes og hvem som må handle.
Denne artikkelen gir strukturert veiledning for diagnostisering av feil på testtilfellenivå. Det hjelper deg med å klassifisere grunnårsaken, skille mellom problemer med agent, evaluering og infrastruktur, og velge den aktuelle neste handlingen.
Før du starter
Før du begynner feilsøk:
- Fullfør poengtolkningen og klargjøringsvurderingen, og identifiser hvilke evalueringssett som krever oppmerksomhet.
- Fokuser på feil med høyest prioritet basert på beredskap og risiko.
Viktig!
Hvis du hopper over dette trinnet, kan du bruke tid på problemer med lav innvirkning eller ikke-blokkering.
Kontroll før triage: Bekreft infrastrukturtilstand
Før du diagnostiserer individuelle feil, må du bekrefte at avhengighetene var sunne under evalueringskjøringen. Infrastrukturproblemer kan gi feil som ser ut som agent- eller evalueringsproblemer, men som ikke er relatert til noen av dem.
Kontroller følgende betingelser:
- Kunnskapskilder er tilgjengelige og fullstendig indekserte.
- API-serverdel eller koblinger returnerer ikke feil, tidsavbrudd eller svar på rentegrense.
- Godkjenningstokener er gyldige gjennom hele kjøringen.
- Evalueringsmiljøet samsvarer med den tiltenkte agentkonfigurasjonen.
Hvis en avhengighet er usunn, kan du rette opp problemet og kjøre evalueringen på nytt før du fortsetter. Prioritering av resultater fra en dårlig testkjøring kan føre til feil konklusjoner.
Trinn 0: Prioritere feil
Før du triage individuelle testtilfeller, bestemmer du hvor du skal fokusere først.
Prioriter feil i denne rekkefølgen:
| Prioritet | Triage først | Begrunnelsen |
|---|---|---|
| 1 | Sikkerhets- og samsvarsfeil | Høyeste konsekvens. Løs disse feilene før distribusjon. |
| 2 | Feil i kjernevirksomhetsscenario | Direkte innvirkning på agentens verdiforslag. |
| 3 | Feil i evalueringssettet med lavest poengsum | Sannsynligvis systemisk. Hvis du løser grunnårsaken, kan det løse flere feil. |
| 4 | Regelmessige feil på tvers av flere kjøringer | Konsekvente feil er enklere å diagnostisere. |
| 5 | Feil i funksjonalitetsscenario | Viktig, men vanligvis lavere effekt. |
Hvis du har mange feil (for eksempel mer enn 15), må du ikke triage hver feil individuelt. Start med evalueringssettet med lavest poengsum, og se gjennom noen feil manuelt. Hvis de deler en grunnårsak, kan det løse mange feil samtidig.
Identifiser kvalitetssignalet for en mislykket test
Hvis et evalueringsresultat viser et mislykket testtilfelle, men ikke tydelig identifiserer kvalitetssignalet, bruker du evalueringssettet og karaktermetoden til å utlede signalet.
Eksempel:
- Evalueringssettet angir funksjonsområdet, for eksempel sikkerhet, jording eller verktøybruk.
- Karaktermetoden, for eksempel nøkkelordssvar eller rubrikkbasert poengsum, gir mer kontekst.
Identifisering av det tiltenkte kvalitetssignalet hjelper deg med å velge de mest relevante diagnosespørsmålene.
Trinn 1: Kontroller evalueringsoppsettet
Viktig!
Begynn alltid her. Før du undersøker agenten, må du kontrollere at evalueringsoppsettet er riktig.
For hver feil kan du manuelt se gjennom agentens faktiske svar sammen med den forventede verdien og graderingsmetoden.
Arbeid gjennom følgende spørsmål i rekkefølge. Stopp når du kommer til et resultat.
Er agentens svar akseptabelt? Ville en ekte bruker være fornøyd med dette svaret, selv om det mislyktes evalueringen?
- Hvis Ja, har evalueringsoppsettet et problem: Graderingen eller den forventede verdien er feil.
- Hvis nei, fortsetter du til neste spørsmål.
Er det forventede svaret gjeldende og nøyaktig mot kilden?
- Hvis Ja, fortsetter du til neste spørsmål.
- Hvis nei, har evalueringsoppsettet et problem: Det forventede svaret er utdatert eller feil.
Gjenspeiler testtilfellet realistiske brukerinndata?
- Hvis Ja, fortsetter du til neste spørsmål.
- Hvis nei, har evalueringsoppsettet et problem: Testtilfellet er urealistisk.
Kan et rimelig alternativt svar også være riktig, men klassingen tillater det ikke?
- Hvis Ja, har evalueringsoppsettet et problem: Klassingen er for stiv og tar ikke hensyn til gyldige variasjoner.
- Hvis nei, fortsetter du til neste spørsmål.
Passer evalueringsmetoden for det du tester?
- Hvis Ja, er evalueringen gyldig. Gå videre til trinn 2: Diagnostisere agenten.
- Hvis nei, har evalueringsoppsettet et problem: Evalueringsmetoden er ikke egnet for dette kvalitetssignalet.
Fastslå akseptabilitet for svar
Bruk følgende signaler til å avgjøre om agentsvaret er akseptabelt:
- Samme viktige fakta, ulike ordlyd → Ofte akseptabelt (klassing kan være for stiv).
- Mangler kritisk informasjon funnet i kilden → Ofte ikke akseptabelt.
- Tvetydig «god nok»-terskel → akseptkriterier kan være uklare (flagg for trinn 4).
Hvis du er usikker, kan du sammenligne innholdet med den opprinnelige kilden, ikke bare det forventede svaret.
Disse signalene informerer vurderingen din, men erstatter den ikke.
Vanlige feiltyper for evalueringsoppsett
| Feiltype | Description | Eksempel |
|---|---|---|
| Utdatert forventet svar | Kildeinnholdet ble endret, men forventet verdi ble ikke oppdatert | Policyen er oppdatert til 15 dager, men evalueringen forventer fortsatt «30-dagers returvindu». |
| Overdrevent stiv klassifiseringsmaskin | Nøkkelord-matching mislykkes med et gyldig synonym eller en refrasering. | Forventet "kaldt vann". Agent respons sier "kaldt vann, 30 grader C," som er semantisk riktig. |
| Urealistisk testtilfelle | Testscenario samsvarer ikke med faktisk brukeratferd | Tester en 4-avsnittsspørring når ekte brukere skriver inn 5-10 ord. |
| Feil evalueringsmetode | Evalueringsmetoden samsvarer ikke med det du faktisk tester | Bruk nøkkelord til å sammenligne (alle) for et syntesespørsmål der sammenlign mening er passende. |
| Grader faktafeil | Språkmodell-som-dommer finner opp en feilårsak som ikke er reell (isolert feil) | Språkmodellvurderingen sier at «svaret nevner ikke returpolicyen» når det tydeligvis gjør det. |
| Grader systematisk skjevhet | Språkmodell-som-dommer bruker en inkonsekvent standard på tvers av testtilfeller (kalibreringsproblem) | Grader godkjenner korte svar, men underkjenner lengre svar for samme kvalitetssignal, uavhengig av innhold. |
| Tvetydige akseptkriterier | Forventet verdi kan tolkes på flere måter | "Bør inkludere prisinformasjon." Månedlig? Årlige? Per bruker? |
Graderingsvalidering
Pålitelighet hos graderingssystemet er en forutsetning for pålitelig triage. Hvis klasseringsverktøyet er upålitelig, feildiagnostiserer du alle feil den kommer i kontakt med.
Slik validerer du graderingspålitelighet:
- Velg 5-10 testtilfeller der du vet riktig bestått/mislykket resultat fra manuell gjennomgang.
- Kjør evalueringen, og sammenlign graderingsutdataene med den manuelle dommen.
- Hvis vurdereren er uenig i mer enn 20% av tilfellene, kan du kalibrere vurdereren på nytt før du feilsøker agenten.
Tegn en grader trenger oppmerksomhet:
- Det samme testtilfellet gir forskjellige dommer på tvers av kjøringer.
- Feilklynger i evalueringssett som bruker modellbasert gradering, mens deterministiske metoder består.
- Klassingen flagger problemer du ikke kan reprodusere ved å se gjennom agentresponsen.
Alternativer for graderingsrekalibrasjon:
- Bruk deterministiske metoder der det er mulig.
- Legg til eksplisitte eksempler på «akseptabelt» og «ikke akseptabelt» i rubrikken.
- Utvide nøkkelordsett for å inkludere synonymer og gyldige omformuleringer.
- Bruk Sammenlign mening i stedet for Nøkkelord-treff (Alle) for semantiske ekvivalenskontroller.
Trinn 2: Diagnostisere agenten
På dette tidspunktet er evalueringen gyldig, og agenten ga feil svar. Diagnostisere hva som gikk galt i agentkonfigurasjonen.
Tips
Noen diagnosespørsmål krever innsyn i hva agenten gjorde internt (for eksempel hvilken kunnskapskilde som ble hentet, hvilket verktøy som ble kalt, eller hvilket emne som ble utløst). Bruk sporingslogger, samtaleavskrifter eller testanalyse når det er tilgjengelig. Hvis plattformen ikke viser disse detaljene, kan du utlede dem fra svaret (for eksempel innhold som bare vises i kilde A, kom sannsynligvis fra kilde A).
Se etter faktisk nøyaktighet og kunnskapsgrunningsfeil
| Spørsmål | Hvis ja → grunnårsak |
|---|---|
| Hentet agenten fra feil kunnskapskilde? | Kunnskapskildekonfigurasjon. Feil kilde indeksert eller prioritert. |
| Hentet agenten riktig kilde, men hentet feil informasjon? | Ledetekst eller instruksjonsgap. Modellen trenger veiledning for uttrekking. |
| Er kildeinnholdet feil eller utdatert? | Kunnskapskildeinnhold. Oppdater kildedokumentet. |
| Svarte agenten uten å bruke noen kunnskapskilde (utgjorde et svar)? | Kildetilgjengelighet. Kilde ikke indeksert, eller spørringsuttrykk samsvarer ikke med kildevokabularet. |
| Motsto agenten informasjon som er i kilden? | Feil informasjon. Legg til eksplisitt forankringsinstruksjon. |
Se etter feil ved aktivering av verktøy
| Spørsmål | Hvis ja → grunnårsak |
|---|---|
| Ble feil verktøy aktivert? | Tvetydighet for verktøybeskrivelse. Beskrivelser overlapper mellom verktøy. |
| Ble det riktige verktøyet utløst med feil parametere? | Parameterdefinisjon. Skjema eller beskrivelse er uklart. |
| Ble ikke verktøyet fyrt i det hele tatt? | Utløserbetingelse. Inndata oppfyller ikke aktiveringsvilkårene. |
| Ble verktøyet fyrt når det ikke skulle ha gjort det? | Negativ beskyttelse mangler. Ingen instruksjoner for når du ikke skal kalle verktøyet. |
| Startet verktøyet riktig, men utdataene ble brukt feil? | Svarinstruksjon. Agenten trenger veiledning om utdata for formateringsverktøy. |
| Fungerer verktøyet riktig, men at selve verktøyet svikter (feil, tidsavbrudd, uriktige data)? | Verktøy- eller integreringsproblem; feilen er i serverdelsystemet, ikke agenten. Reparer verktøyet, ikke agenten. |
Se etter feil i utløserruting
| Spørsmål | Hvis ja → grunnårsak |
|---|---|
| Ble feil tema utløst? | Emneutløseroverlapping. Utløsere er tvetydige mellom emner. |
| Var det ingen emnebrann (brukte reservefunksjon)? | Temadekningsgap. Ingen emner håndterer denne inndatatypen. |
| Matchet flere emner med feil avklaring? | Tvetydighetslogikk. Feilkonfigurert prioritets- eller avklaringsflyt. |
Se etter tone- og svarkvalitetsfeil
| Spørsmål | Hvis ja → grunnårsak |
|---|---|
| Er agentens tone uforenlig med systemledende veiledning? | Toneinstruksjonsmangel Løs manglende eller motstridende veiledning. |
| Er svaret for detaljert eller for terse for spørsmålet? | Formatér instruksjonen. Legg til veiledning for lengde eller struktur. |
| Mangler agenten empati i sensitive sammenhenger? | Empatiinstruksjonsavvik. Legg til eksplisitt veiledning for emosjonelle inndata. |
| Er svaret strukturelt dårlig (vegg av tekst, ingen trinn)? | Formatér instruksjonen. Legg til formateringskrav. |
Se etter sikkerhets- og grensefeil
| Spørsmål | Hvis ja → grunnårsak |
|---|---|
| Avslørte agenten systeminformasjon? | Systempromptbeskyttelse. Legg til instruksjoner for "ikke vis". |
| Gikk agenten utenfor virkeområde? | Omfangsdefinisjonsgap. Mer tydelig definere grenser. |
| Overholdt agenten rask injeksjon? | Sikkerhetsinstruksjoner. Legg til motstridende motstandsveiledning. |
| Håndterte agenten personopplysninger feil? | PII-håndteringsregler. Legg til instruksjoner for databeskyttelse. |
Se etter eskalering og smidig feil
| Spørsmål | Hvis ja → grunnårsak |
|---|---|
| Klarte ikke agenten å eskalere når den skulle ha gjort det? | Eskaleringsutløser. Vilkår er ikke definert eller for smale. |
| Eskalerte agenten for tidlig? | Eskaleringsterskel. Vilkår er for sensitive. |
| Mistet eskalering samtalekonteksten? | Handoff-konfigurasjon. Kontekstbevaring er ikke konfigurert. |
| Gikk agenten i løkke i stedet for å erkjenne feil? | Tilbakefallslogikk. Grense for omprøve eller reserveopptreden er ikke konfigurert. |
Etter diagnostisering tilordner du feilmønstre til utbedringsstrategier etter grunnårsak.
Trinn 3: Identifisere plattformbegrensninger
Hvis evalueringen er riktig og rimelige konfigurasjonsendringer ikke forbedrer resultatene, kan problemet være en plattformbegrensning.
Plattformbegrensningsindikatorer
| Indikator | Hva det antyder |
|---|---|
| Samme feil vedvarer på tvers av flere ledetekst- og konfigurasjonsvariasjoner | Ikke et konfigurasjonsproblem |
| Henting returnerer konsekvent feil dokumenter til tross for riktig kildekonfigurasjon | Begrensning for rangeringshenting |
| Agent kan ikke utføre det nødvendige resonnementet til tross for klare instruksjoner | Grense for modellfunksjonalitet |
| Nødvendig orkestreringsmønster støttes ikke av et konfigurasjonsalternativ | Betingelse for orkestreringslogikk |
| Modellbasert klassing feilklassifiserer konsekvent til tross for rubrikkjustering | Begrensning for graderingsmodell |
Handlingsbane for plattformbegrensninger
- Dokumenter begrensningen tydelig (hva som mislykkes, hva du prøvde og bevis på at det ikke er konfigurasjonsrelatert).
- Bruk en midlertidig løsning når det er mulig (for eksempel omstrukturer kildedokumentet for å forbedre hentingen).
- Merk testtilfellet som en kjent begrensning eller juster terskler slik at den ikke blokkerer urelatert fremdrift.
- Eskalere saken med dokumentasjon til plattformteamet.
- Spor elementet i feilloggen for ny evaluering når plattformfunksjonene oppdateres.
Etter klassifisering kan du se gjennom midlertidig løsning og videreformidlingsveiledning for å svare på plattformbegrensninger.
Når en feil ikke passer til rammeverket
Noen feil tilordnes ikke rent til én enkelt grunnårsakstype. Vanlige eksempler inkluderer:
- Problemer med serverdeldatakvalitet: Kunnskapskildeinnholdet er teknisk korrekt, men tvetydig skrevet, så verken agenten eller evalueringen er feil.
- Uregelmessige infrastrukturproblemer: Nettverkstidsavbrudd, API-rentebegrensning og koblingsproblemer som ikke reproduserer konsekvent.
- Modellversjonsendringer: Agentvirkemåte endret etter en plattformmodelloppdatering som du ikke startet.
- Tvetydige testtilfeller: Scenarioet er tvetydig, og fornuftige mennesker er uenige om det riktige svaret.
Foreslått tilnærming: Dokumenter det du observerte (feilen, agentens svar, det du sjekket). Registrer elementet som «uklassifisert» i feilloggen. Hvis feilen oppstår igjen, blir den ofte klassifiserbar med ytterligere bevis.
Håndtering av sammensatte årsaker
En enkelt feil kan ha flere medvirkende årsaker. Eksempel:
- En faktisk nøyaktighetsfeil der det forventede svaret er litt utdatert (evalueringsoppsett) og kunnskapskilden også er ufullstendig (agentkonfigurasjon).
- En feil under aktivering av verktøy der verktøybeskrivelsen er tvetydig (agentkonfigurasjon) og orkestreringen støtter ikke betingede verktøykall (plattformbegrensning).
Foreslått tilnærming: Fullfør hele triage for hver feil. Hvis flere grunnårsakstyper gjelder, adresserer du dem i prioritert rekkefølge:
- Løs evalueringen først for å få rent signal om agentendringen faktisk hjelper.
- Løs agentkonfigurasjonen for å finne ut om den gjenværende feilen virkelig er et plattformproblem.
- Dokumenter plattformbegrensningen bare etter at 1 og 2 er adressert.
Kjør berørte testtilfeller på nytt etter hver endring før du fortsetter.
Håndtering av feil med samtaler med flere runder
For scenarioer med flere svinger oppstår feil bare på tvers av svinger.
Når du skal mistenke et problem med flere sving
- Agenten svarer riktig i tidlige svinger, men motsier seg selv senere.
- Agenten mister konteksten fra et tidligere verktøyanrop eller kunnskapshenting senere.
- Eskaleringstidspunkt gir bare mening når du vurderer hele samtaleloggen.
- Agenttonen forringes gradvis etter hvert som samtalen forlenges.
- Agenten ber om informasjon som brukeren allerede har oppgitt.
Tips
Det kan oppstå en feil senere, mens grunnårsaken oppstår tidligere. Spor tilbake for å identifisere den første svingen der samtalen avviker.
Flere diagnosespørsmål
| Spørsmål | Hvis ja → grunnårsak |
|---|---|
| Var feilen avhengig av informasjon fra en tidligere sving som gikk tapt? | Kontekstbehandlingsproblem; samtaletilstanden beholdes ikke over flere samtaleutvekslinger. |
| Motsier agenten noe den sa i en tidligere samtale? | Konsekvensveiledningsgap; ingen instruksjoner for å opprettholde sammenheng på tvers av svinger. |
| Ba agenten på nytt om informasjon brukeren allerede har oppgitt? | Problem med henting av kontekst; agenten refererer ikke til tidligere samtalesvinger. |
| Oppstod feilen først etter mange runder (5+)? | Effektiv kontekstlengde overskredet. |
Veiledning for utbedring for problemer med flere runder
- Konteksttap: Kontroller konfigurasjon av samtaletilstand. Sørg for at verktøyutdata og viktige fakta vedvarer på tvers av svinger.
- Motsetninger: Legg til konsekvensinstruksjon, for eksempel: «Opprettholde konsekvens med tidligere svar i denne samtalen.»
- Spør på nytt: Kontroller plattformens konfigurasjon av samtaleminne.
- Nedbrytning av samtalekvalitet: Vurder samtaleoppsummering eller kontekstuell beskjæring.
Validerer bestått testtilfeller (falsk positiv kontroll)
Dette rammeverket fokuserer på mislykkede testtilfeller. Et testtilfelle som passerer feil, kan imidlertid skape skjulte kvalitetshull.
Anbefalt praksis: Se manuelt gjennom 5-10% bestått testtilfeller per evalueringskjøring, spesielt for:
- Modellbasert karaktersetting (høyere risiko for falske positiver)
- Subjektive signaler (tone, hjelpsomhet)
- Tidligere mislykkede tester som nå passerer etter en endring
Hvis du finner falske positiver, kan du kalibrere klassingen på nytt.
Neste trinn
Etter at du har fullført feilsortering:
- Bruk lag 3: Tilordne feilmønstre til utbedringsstrategier.
- Bruk lag 4: Analyser mønstre for å identifisere systemiske problemer.
- Se gjennom praktiske eksempler som viser hvordan rammelagene fungerer sammen i virkelige scenarier.