Lag 4: Analyser mønstre og forbedre agenten kontinuerlig

Når du triage individuelle testtilfellefeil, kan du bruke løsninger og fortsatt se liten eller ingen forbedring i den generelle agentytelsen. Dette resultatet indikerer ofte et systemisk problem, ikke en samling av ikke-relaterte feil.

Mønsteranalyse hjelper deg med å se på flere mislykkede testtilfeller for å identifisere regelmessige signaler og delte årsaker. Bruk mønsteranalyse til å fokusere på endringer som adresserer grupper av feil samtidig i stedet for å løse hver feil isolert.

Viktig!

Bruk denne veiledningen etter at du har fullført feiltriage og bruk utbedringsendringer. Mønsteranalyse er mest nyttig etter at du triagerer minst fem feil.

Når du skal bruke mønsteranalyse

Mønsteranalyse er mest nyttig når du observerer én eller flere av følgende betingelser:

  • Mange feil i det samme evalueringssettet.
  • Gjentatte feil med lignende symptomer.
  • Forbedringer i individuelle testtilfeller som ikke flytter totale poengsummer.
  • Forbedringer i ett område som forårsaker regresjoner i et annet.

Det er ineffektivt å løse feil én etter én i disse situasjonene. Mønsteranalyse hjelper deg med å identifisere hvilke feil som har felles, slik at du kan løse den underliggende årsaken.

Konsentrasjonsanalyse

Når du har klassifisert individuelle feil, kan du se etter mønstre på tvers av hele settet.

Mønster Hva det indikerer Anbefalt handling
80% eller flere feil er problemer med evalueringsoppsettet Evalueringsserien trenger kalibrering, ikke agentendringer Stans agent-gjentakelse midlertidig. Overvåk og rett evalueringskvaliteten først, og kjør deretter på nytt for å få rent signal.
80% eller flere feil er agentkonfigurasjonsproblemer i ett område (for eksempel alle kunnskapsrelaterte) Systemisk agentkonfigurasjonsgap Fokusutbedring på dette området. Dette problemet er ofte et arkitektonisk problem (for eksempel kunnskapskildestruktur), ikke individuelle testtilfeller.
80% eller flere feil er plattformbegrensninger Agenten når plattformgrenser Revurdering av agentomfang. Eskalere til plattformteam. Juster terskler eller behandle berørte elementer som kjente begrensninger der det er aktuelt.
Feil spres jevnt over grunnårsakstyper Ikke noe enkelt systemisk problem Fortsett utbedringstilfelle etter sak ved hjelp av utbedringstilordning.

Slik utfører du konsentrasjonsanalyse

  1. Telle de klassifiserte feilene etter grunnårsakstype:

    • Problemer med evalueringsoppsett
    • Agentkonfigurasjonsproblemer
    • Begrensninger for plattformen
    • Uklassifisert
  2. Beregne prosentandelen for hver type.

  3. Hvis én enkelt type er 80% eller høyere, som angir et systemisk problem, kan du løse kategorien, ikke enkelttilfeller.

  4. Hvis agentkonfigurasjonsproblemer konsentrerer seg i ett kvalitetssignal (for eksempel fem av seks er kunnskapsjording), peker dette mønsteret på en arkitektonisk grunnårsak.

Krysssignalmønstre

Når feil strekker seg over flere evalueringssett, peker de ofte på en delt grunnårsak. Se etter følgende mønstre:

Mønster Hva det sannsynligvis indikerer Hva du skal undersøke
Faktanøyaktighet og kunnskapsgrunnlag svikter begge deler Kunnskapskildeproblem (feil, manglende, utilgjengelig eller foreldet) Kunnskapskonfigurasjon, indekseringsstatus og innholdsfriskhet
Både aktivering av verktøy og utløserruting mislykkes Konfigurasjonsproblem for orkestrering – emner og verktøy er ikke riktig tilkoblet Se gjennom hvordan emner rutes til verktøy. Se etter frakoblede eller feilkonfigurerte flyter.
Feil i tonen, men nøyaktigheten er godkjent Agent får det riktige svaret, men leverer det dårlig Fokuser på instruksjoner for ledetekststil; nøyaktighetsinfrastruktur er god.
Sikkerhet er godkjent, men nøyaktigheten svikter Agenten kan være overbegrenset – for forsiktig, nekter å svare når den skal Se gjennom sikkerhetsinstruksjoner for altfor brede restriksjoner som blokkerer legitime svar.
Alt som passerer bortsett fra kanttilfeller Kjernevirkemåten er solid Fokuser på å utvide robustheten ved margene. dette mønsteret er et godt tegn.
Forbedret nøyaktighet, men forringet tone Instruksjonskonflikt – nye nøyaktighetsinstruksjoner kan være å fortrenge tonoanvisning Se gjennom nylige ledetekstendringer, og husk «instruksjonsbudsjettet».
Flere evalueringssett forringes alle samtidig Sannsynligvis én enkelt grunnårsak med bred innvirkning Se etter nylige endringer i systemledeteksten, oppdateringer av kunnskapskilde eller plattformmodelloppdateringer.

Hva du skal gjøre med krysssignalmønstre

  1. Identifiser den delte grunnårsaken: Hvis to signaler mislykkes sammen, deler de sannsynligvis en avhengighet, for eksempel en kunnskapskilde, ledetekstinndeling eller verktøykonfigurasjon.
  2. Løs den delte avhengigheten: Ikke rett opp hvert signal uavhengig av hverandre.
  3. Kjør begge evalueringssettene på nytt: Etter løsningen bekrefter du at begge settene forbedres.
  4. Hvis bare én blir bedre, deler ikke signalene en grunnårsak. Triage de gjenværende feilene uavhengig.

Trendanalyse på tvers av gjentakelser

Spor hvordan resultatene endres på tvers av gjentakelsessyklusene for å forstå om utbedringsstrategien fungerer.

Trend Tolkning Handling
Resultater som forbedres på tvers av gjentakelser Utbedring fungerer Fortsett til terskler er oppfylt.
Scorer flatt til tross for endringer Utbedring er ikke rettet mot den virkelige årsaken Re-triage; grunnårsaksklassifiseringen kan være feil.
Forverring av resultater etter en endring Regresjon – endringen brøt noe Rull tilbake endringen. Undersøk hva som har tilbakefalt og hvorfor.
Et evalueringssett blir bedre, et annet blir dårligere. Avveining – å fikse én dimensjon skader en annen Undersøk koblinger, ofte forårsaket av instruksjonskonflikt (se Reise 3).
Poengsummer som varierer mellom gjennomføringer (mer enn +/-10% avvik) Grader ustabilitet eller agent ikke-determinisme Valider graderingspålitelighet først (se Grader-validering). Kjør minst tre ganger per gjentakelse.

Bygge en trendvisning

Etter hver gjentakelse registrerer du:

  • Dato
  • Endring gjort
  • Evalueringssett
  • Poengsum før
  • Poengsum etter
  • Delta

Denne informasjonen hjelper deg:

  • Bekreft at du konvergerer mot terskler
  • Identifiser regresjoner raskt
  • Finn platåer tidlig (Reise 2)

Dokumentfeil

Strukturerte feilposter bygger institusjonell kunnskap på tvers av gjentakelsessykluser. Uten dokumentasjon gjentar team ofte det samme undersøkelsesarbeidet.

Hvorfor dokumentfeil

  • Øke hastigheten på fremtidig triage: Du gjenkjenner umiddelbart kjente feilmønstre.
  • Bygg dokumentasjon for eskalering: Samle plattformbegrensningsregistreringer for å styrke sakene overfor plattformteamet.
  • Aktiver teamlæring: Loggen bidrar til å forhindre duplikatundersøkelser når flere personer arbeider på samme agent.
  • Spor kjente hull: Ikke glem å spore feil klassifisert som «løser ikke» eller «kjent begrensning».

Bruk malen for feillogg

Bruk malen for feillogg til å registrere feil i et lett eller detaljert format, avhengig av teamets størrelse og forfallsdato.

Hva du skal spille inn

I det minste kan du registrere følgende informasjon for hver triaged-feil:

  1. Hvilket testtilfelle som mislyktes.
  2. Hvilken grunnårsakstype du klassifiserte den som.
  3. Hva gikk galt spesifikt.
  4. Det du endret for å fikse det.
  5. Om løsningen fungerte.

For uløste feil registrerer du også:

  • Det du har prøvd så langt.
  • Hvorfor det forblir uløst.
  • Når du skal revurdere (for eksempel «etter plattformoppdatering ).

Arbeidsflyt for kontinuerlig forbedring

Bruk denne sjekklisten etter hver triage- og utbedringssyklus for å bekrefte at du har tatt opp resultatene og de neste trinnene.

Sjekkliste etter gjentakelse

Gjort? Oppgave
Registrer alle feil i feilloggen.
Identifiser og noter grunnårsakskonsentrasjoner.
Kontroller mønstre på tvers av signaler.
Registrer resultater for trendsporing.
Dokument kjente begrensninger med midlertidige løsninger.
Identifiser neste gjentakelsesprioriteringer basert på gjenværende feil.
Angi tidsplan for gjennomføring på nytt (hvilke evalueringssett, når).

Når du skal stoppe gjentakelse

Stopp gjentakelse når:

  • Alle evalueringssett er over terskelverdier.
  • Du dokumenterte kjente mellomrom.
  • Resultatene er konsekvente (< 5% varians).
  • Ingen konfigurasjonsproblemer for åpen agent for blokkering av signaler.

Ikke stopp iterasjonen når:

  • Du undersøkte ikke vedvarende feil.
  • Du fjernet harde testtilfeller for å treffe terskler.
  • Du har ikke dokumentert plattformbegrensninger.

Finn ut mer i Bestem når gjentakelsen er fullført.

Neste trinn