Lag 1: Tolke evalueringsresultater og vurdere beredskap

Når du har kjørt evalueringer på en agent, har du vanligvis resultater, men ikke et umiddelbart svar på det viktigste spørsmålet: Er agenten klar til å distribuere?

Dette laget fokuserer på å tolke evalueringsresultater og vurdere beredskap før du undersøker individuelle testtilfellefeil. Bruk poengsummer som beslutningssignaler for å avgjøre om du kan distribuere agenten, skal fortsette å iterere eller må blokkere distribusjon. Dette trinnet hjelper deg også med å identifisere hvor dypere analyse er nødvendig.

Formålet med poengtolkning

Dette laget hjelper deg med å svare på spørsmål om klargjøring på høyt nivå, inkludert:

  • Er agenten klar til å distribuere?
  • Hvis ikke, hvilke områder krever oppmerksomhet først?
  • Er det noen blokkeringsproblemer som må løses før videre gjentakelse?

Dette trinnet er med vilje enkelt. I de fleste tilfeller kan du fullføre det på 10–15 minutter ved hjelp av evalueringsresultatene du allerede har.

Før du starter

Før du starter dette laget, må du kontrollere at du har:

  • Bestått eller mislykket resultater for individuelle testtilfeller.
  • Aggregerte resultater for ett eller flere evalueringssett (for eksempel sikkerhet, jording, forretningskorrigering eller verktøybruk).

Hvis evalueringsresultatene ennå ikke er tilgjengelige, kjører du evalueringssettene først og går tilbake til dette trinnet når resultatene er tilgjengelige.

Tolke resultater på evalueringssettnivået

Start med å se gjennom evalueringssettresultater i stedet for individuelle testtilfeller.

Evalueringssett representerer ulike risiko- og kapasitetsområder, for eksempel sikkerhet, kjernevirksomhet, kunnskapsjording eller verktøyinvokasjon. Hvis du tolker poengsummer på dette nivået, kan du avgjøre om feil er isolerte eller systemiske.

Vurder følgende spørsmål:

  • Er noen sikkerhets- eller samsvarsresultater under akseptable terskler?
  • Oppfyller kjerneevalueringssettene minimumsforventningene?
  • Hvilket evalueringssett er svakest i forhold til dens betydning?

På dette stadiet kan du fokusere på signal, ikke grunnårsak.

Tolke passeringshastigheter på to nivåer:

  • Per evalueringssett: Hva betyr denne prosentandelen for den spesifikke funksjonen som testes?
  • Per kvalitetssignal: Hva angir denne prosentandelen på tvers av alle evalueringssett som tester det samme signalet?

En lav passrate betyr ikke automatisk at agenten er feil. Det indikerer at etterforskning er nødvendig. Problemet kan være i agenten, evalueringsoppsettet eller plattformen.

Angi terskler basert på risiko

Ikke bruk de samme terskler for alle agenter. Angi terskler basert på agentens risikoprofil. Vurder følgende faktorer.

Omregningsfaktor Spørsmål å stille Innvirkning på terskelen
Konsekvens av feil Hva skjer hvis agenten tar feil? Ulempe? Økonomisk tap? Sikkerhetsrisiko? Høyere konsekvens → høyere terskel
Hyppighet av bruk Hvor ofte utløser brukere dette kvalitetssignalet? Høyere frekvens → høyere terskel (mer eksponering)
Tilbakefallstilgjengelighet Hvis agenten mislykkes, er det en menneskelig sikkerhetskopi? Hvor fort? Ingen tilbakefall → høyere terskel
Målgruppe Interne ansatte? Eksterne kunder? Regulert industri? Ekstern eller regulert → høyere terskel

Eksempel på risikobaserte terskler

Denne tabellen viser eksempelstartpunkter, ikke universelle standarder.

Risikoprofil Description Sikkerhet og samsvar Kjernevirksomhet Funksjoner
Internt verktøy med lav risiko Intern, menneskelig gjennomgang av alle utdata, domene med lav innsats 90%+ 75%+ 65%+
Kundebasert agent med middels risiko Eksterne brukere, enkelte automatiseringsfeil, gjenopprettelige feil 95%+ 85%+ 75%+
Høyrisikoregulert/finansiell agent Eksterne brukere, følgebeslutninger, forskriftsmessig eksponering 98%+ 92%+ 85%+
Sikkerhetskritisk agent Helse, juridisk eller økonomisk rådgivning med begrenset menneskelig tilsyn 99%+ 95%+ 90%+

Bruk disse eksemplene som ankere, og juster deretter basert på dine spesifikke risikohensyn.

Eksempel på terskelkalibrering

Følgende eksempel viser en mulig kalibrering for en kundestøtteagent med middels risiko.

Kvalitetssignal Startterskel Blokkeringsterskel Begrunnelsen
Sikkerhet og personopplysninger 95-100% < 95% blokker forsendelse Enhver sikkerhetsfeil er høy risiko
Samsvar og ordrett innhold 95-100% < 95% blokker forsendelse Forskriftsmessig eller juridisk eksponering
Faktisk nøyaktighet (kjernevirksomhet) 85-95% < 80% blokkerer forsendelsen Forslag til kjerneverdi
Kunnskapsjording 85-95% < 80% blokkerer forsendelsen Grunnlag for nøyaktighet
Aktivering av verktøy 90-95% < 85% hindrer levering Pålitelighet for oppgaveutførelse
Utløserruting 85-95% < 80% blokkerer forsendelsen Korrekthet i samtaleflyten
Eskalering og eleganse 90-95% < 85% hindrer levering Sikkerhetsnett for brukeropplevelse
Tone- og responskvalitet 80-90% < 75% blokkerer forsendelse Subjektivt signal

Tips

Kalibrer, ikke kopier. Terskler bør gjenspeile akseptabel risiko for det bestemte brukstilfellet.

Fastslå status for beredskap

Bruk resultater fra evalueringssett til å bestemme en samlet klargjøringstilstand. Vanlige beredskapstilstander omfatter:

  • Blokk: Sikkerhet, samsvar eller kritiske forretningsfeil hindrer distribusjon.
  • Iterere: Agenten viser løfter, men krever målrettede forbedringer.
  • Betinget distribusjon: Agenten kan distribueres med dokumenterte og overvåkede begrensninger.
  • Distribuer: Agenten oppfyller terskler på tvers av alle nødvendige evalueringssett.

Grunnleggende klargjøringsbeslutninger om risikotoleranse og brukskontekst, ikke på én enkelt universell poengsum.

Tips

Betinget distribusjon med kjente hull er et legitimt resultat. Dokument godtar begrensninger og sporer dem over tid ved hjelp av malen for feillogg.

Fastslå når gjentakelsen er fullført

Bruk følgende vilkår til å bestemme når du kan gå utover triage til distribusjon eller overvåking.

Gjentakelse er fullført når:

  • Alle evalueringssett er over deres terskler, inkludert de tersklene du har justert.
  • Kjente hull er dokumentert med eiere og tidslinjer.
  • Reruns produserer konsekvente poengsummer med mindre enn 5% varians mellom kjøringer.
  • Ingen blokkeringsproblemer forblir klassifisert som agentkonfigurasjonsproblemer.

Gjentakelse er ikke fullført når:

  • Terskler oppfylles uten å forstå gjenværende feil.
  • Resultatene forbedres bare fordi vanskelige testtilfeller ble fjernet.
  • Plattformbegrensninger godtas implisitt uten dokumentasjon.

Håndtering av ikke-determinisme i poengsummer

Språkmodellbaserte agenter og klassinger produserer variable utdata. Bruk følgende fremgangsmåter:

  • Opprett opprinnelige planer: Kjør det fullstendige evalueringssettet minst tre ganger før du behandler en poengsum som en opprinnelig plan. Bruk gjennomsnittet som arbeidspoengsum. Med færre enn tre kjøringer kan du ikke skille ekte signal fra støy.
  • Resultatvarians mellom kjøringer: Opptil 5% varians mellom kjøringer er normalt for språkmodellklassinger. Hvis kjøringer varierer med mer enn 10 %, må du undersøke graderingspålitelighet før du diagnostiserer agentproblemer. Finn ut mer i graderingsvalidering.
  • Tolke poengendringer etter utbedring: For evalueringssett med færre enn 30 testtilfeller, endres et enkelt testtilfelle som endres fra, ikke til å bestå, resultatet med 3% eller mer. Ikke overtolk små bevegelser. For evalueringssett med 50 eller flere testtilfeller kan du behandle en endring på 5% eller mer som meningsfull. Når du er i tvil, kjører du evalueringen tre ganger på nytt og sammenligner gjennomsnittet med gjennomsnittet av grunnlinjen.
  • Identifiser upålitelige testtilfeller (bestå noen ganger, mislykkes andre): Et testtilfelle som passerer to av tre testkjøringer, er på grensen. Undersøk nærmere. Er den forventede verdien for stiv (evalueringsoppsett), eller er agenten virkelig inkonsekvent (agentkonfigurasjon)? Hvis agenten produserer to forskjellige, men begge akseptable svar, er evalueringen for stiv.

Neste trinn

Når du tolker resultatene og identifiserer hvor du skal fokusere:

Hvis mer enn 10 testtilfeller mislykkes, analyserer du mønstre før du triage individuelle feil.