Lag 1: Tolke evalueringsresultater og vurdere beredskap

Når du har kjørt evalueringer på en agent, har du vanligvis resultater, men ikke et umiddelbart svar på det viktigste spørsmålet: Er agenten klar til å distribuere?

Dette laget fokuserer på å tolke evalueringsresultater og vurdere beredskap før du undersøker individuelle testtilfellefeil. Bruk poengsummer som beslutningssignaler for å avgjøre om du kan distribuere agenten, skal fortsette å iterere eller må blokkere distribusjon. Dette trinnet hjelper deg også med å identifisere hvor dypere analyse er nødvendig.

Formålet med poengtolkning

Dette laget hjelper deg med å svare på spørsmål om klargjøring på høyt nivå, inkludert:

Er agenten klar til å distribuere?
Hvis ikke, hvilke områder krever oppmerksomhet først?
Er det noen blokkeringsproblemer som må løses før videre gjentakelse?

Dette trinnet er med vilje enkelt. I de fleste tilfeller kan du fullføre det på 10–15 minutter ved hjelp av evalueringsresultatene du allerede har.

Før du starter

Før du starter dette laget, må du kontrollere at du har:

Bestått eller mislykket resultater for individuelle testtilfeller.
Aggregerte resultater for ett eller flere evalueringssett (for eksempel sikkerhet, jording, forretningskorrigering eller verktøybruk).

Hvis evalueringsresultatene ennå ikke er tilgjengelige, kjører du evalueringssettene først og går tilbake til dette trinnet når resultatene er tilgjengelige.

Tolke resultater på evalueringssettnivået

Start med å se gjennom evalueringssettresultater i stedet for individuelle testtilfeller.

Evalueringssett representerer ulike risiko- og kapasitetsområder, for eksempel sikkerhet, kjernevirksomhet, kunnskapsjording eller verktøyinvokasjon. Hvis du tolker poengsummer på dette nivået, kan du avgjøre om feil er isolerte eller systemiske.

Vurder følgende spørsmål:

Er noen sikkerhets- eller samsvarsresultater under akseptable terskler?
Oppfyller kjerneevalueringssettene minimumsforventningene?
Hvilket evalueringssett er svakest i forhold til dens betydning?

På dette stadiet kan du fokusere på signal, ikke grunnårsak.

Tolke passeringshastigheter på to nivåer:

Per evalueringssett: Hva betyr denne prosentandelen for den spesifikke funksjonen som testes?
Per kvalitetssignal: Hva angir denne prosentandelen på tvers av alle evalueringssett som tester det samme signalet?

En lav passrate betyr ikke automatisk at agenten er feil. Det indikerer at etterforskning er nødvendig. Problemet kan være i agenten, evalueringsoppsettet eller plattformen.

Angi terskler basert på risiko

Ikke bruk de samme terskler for alle agenter. Angi terskler basert på agentens risikoprofil. Vurder følgende faktorer.

Omregningsfaktor	Spørsmål å stille	Innvirkning på terskelen
Konsekvens av feil	Hva skjer hvis agenten tar feil? Ulempe? Økonomisk tap? Sikkerhetsrisiko?	Høyere konsekvens → høyere terskel
Hyppighet av bruk	Hvor ofte utløser brukere dette kvalitetssignalet?	Høyere frekvens → høyere terskel (mer eksponering)
Tilbakefallstilgjengelighet	Hvis agenten mislykkes, er det en menneskelig sikkerhetskopi? Hvor fort?	Ingen tilbakefall → høyere terskel
Målgruppe	Interne ansatte? Eksterne kunder? Regulert industri?	Ekstern eller regulert → høyere terskel

Eksempel på risikobaserte terskler

Denne tabellen viser eksempelstartpunkter, ikke universelle standarder.

Risikoprofil	Description	Sikkerhet og samsvar	Kjernevirksomhet	Funksjoner
Internt verktøy med lav risiko	Intern, menneskelig gjennomgang av alle utdata, domene med lav innsats	90%+	75%+	65%+
Kundebasert agent med middels risiko	Eksterne brukere, enkelte automatiseringsfeil, gjenopprettelige feil	95%+	85%+	75%+
Høyrisikoregulert/finansiell agent	Eksterne brukere, følgebeslutninger, forskriftsmessig eksponering	98%+	92%+	85%+
Sikkerhetskritisk agent	Helse, juridisk eller økonomisk rådgivning med begrenset menneskelig tilsyn	99%+	95%+	90%+

Bruk disse eksemplene som ankere, og juster deretter basert på dine spesifikke risikohensyn.

Eksempel på terskelkalibrering

Følgende eksempel viser en mulig kalibrering for en kundestøtteagent med middels risiko.

Kvalitetssignal	Startterskel	Blokkeringsterskel	Begrunnelsen
Sikkerhet og personopplysninger	95-100%	< 95% blokker forsendelse	Enhver sikkerhetsfeil er høy risiko
Samsvar og ordrett innhold	95-100%	< 95% blokker forsendelse	Forskriftsmessig eller juridisk eksponering
Faktisk nøyaktighet (kjernevirksomhet)	85-95%	< 80% blokkerer forsendelsen	Forslag til kjerneverdi
Kunnskapsjording	85-95%	< 80% blokkerer forsendelsen	Grunnlag for nøyaktighet
Aktivering av verktøy	90-95%	< 85% hindrer levering	Pålitelighet for oppgaveutførelse
Utløserruting	85-95%	< 80% blokkerer forsendelsen	Korrekthet i samtaleflyten
Eskalering og eleganse	90-95%	< 85% hindrer levering	Sikkerhetsnett for brukeropplevelse
Tone- og responskvalitet	80-90%	< 75% blokkerer forsendelse	Subjektivt signal

Tips

Kalibrer, ikke kopier. Terskler bør gjenspeile akseptabel risiko for det bestemte brukstilfellet.

Fastslå status for beredskap

Bruk resultater fra evalueringssett til å bestemme en samlet klargjøringstilstand. Vanlige beredskapstilstander omfatter:

Blokk: Sikkerhet, samsvar eller kritiske forretningsfeil hindrer distribusjon.
Iterere: Agenten viser løfter, men krever målrettede forbedringer.
Betinget distribusjon: Agenten kan distribueres med dokumenterte og overvåkede begrensninger.
Distribuer: Agenten oppfyller terskler på tvers av alle nødvendige evalueringssett.

Grunnleggende klargjøringsbeslutninger om risikotoleranse og brukskontekst, ikke på én enkelt universell poengsum.

Tips

Betinget distribusjon med kjente hull er et legitimt resultat. Dokument godtar begrensninger og sporer dem over tid ved hjelp av malen for feillogg.

Fastslå når gjentakelsen er fullført

Bruk følgende vilkår til å bestemme når du kan gå utover triage til distribusjon eller overvåking.

Gjentakelse er fullført når:

Alle evalueringssett er over deres terskler, inkludert de tersklene du har justert.
Kjente hull er dokumentert med eiere og tidslinjer.
Reruns produserer konsekvente poengsummer med mindre enn 5% varians mellom kjøringer.
Ingen blokkeringsproblemer forblir klassifisert som agentkonfigurasjonsproblemer.

Gjentakelse er ikke fullført når:

Terskler oppfylles uten å forstå gjenværende feil.
Resultatene forbedres bare fordi vanskelige testtilfeller ble fjernet.
Plattformbegrensninger godtas implisitt uten dokumentasjon.

Håndtering av ikke-determinisme i poengsummer

Språkmodellbaserte agenter og klassinger produserer variable utdata. Bruk følgende fremgangsmåter:

Opprett opprinnelige planer: Kjør det fullstendige evalueringssettet minst tre ganger før du behandler en poengsum som en opprinnelig plan. Bruk gjennomsnittet som arbeidspoengsum. Med færre enn tre kjøringer kan du ikke skille ekte signal fra støy.
Resultatvarians mellom kjøringer: Opptil 5% varians mellom kjøringer er normalt for språkmodellklassinger. Hvis kjøringer varierer med mer enn 10 %, må du undersøke graderingspålitelighet før du diagnostiserer agentproblemer. Finn ut mer i graderingsvalidering.
Tolke poengendringer etter utbedring: For evalueringssett med færre enn 30 testtilfeller, endres et enkelt testtilfelle som endres fra, ikke til å bestå, resultatet med 3% eller mer. Ikke overtolk små bevegelser. For evalueringssett med 50 eller flere testtilfeller kan du behandle en endring på 5% eller mer som meningsfull. Når du er i tvil, kjører du evalueringen tre ganger på nytt og sammenligner gjennomsnittet med gjennomsnittet av grunnlinjen.
Identifiser upålitelige testtilfeller (bestå noen ganger, mislykkes andre): Et testtilfelle som passerer to av tre testkjøringer, er på grensen. Undersøk nærmere. Er den forventede verdien for stiv (evalueringsoppsett), eller er agenten virkelig inkonsekvent (agentkonfigurasjon)? Hvis agenten produserer to forskjellige, men begge akseptable svar, er evalueringen for stiv.

Neste trinn

Når du tolker resultatene og identifiserer hvor du skal fokusere:

Bruk Lag 2: Triage-feil for å diagnostisere mislykkede testtilfeller.
Bruk lag 3: Tilordne feilmønstre til utbedringsstrategier for å bruke målrettede løsninger.
Bruk lag 4: Analyser mønstre for å identifisere systemiske problemer.
Se gjennom praktiske eksempler som viser hvordan rammelagene fungerer sammen i virkelige scenarier.

Hvis mer enn 10 testtilfeller mislykkes, analyserer du mønstre før du triage individuelle feil.

Tilbakemeldinger

Var denne siden nyttig?

Last updated on 2026-03-31