Merk
Tilgang til denne siden krever autorisasjon. Du kan prøve å logge på eller endre kataloger.
Tilgang til denne siden krever autorisasjon. Du kan prøve å endre kataloger.
Når du har kjørt evalueringer på en agent, har du vanligvis resultater, men ikke et umiddelbart svar på det viktigste spørsmålet: Er agenten klar til å distribuere?
Dette laget fokuserer på å tolke evalueringsresultater og vurdere beredskap før du undersøker individuelle testtilfellefeil. Bruk poengsummer som beslutningssignaler for å avgjøre om du kan distribuere agenten, skal fortsette å iterere eller må blokkere distribusjon. Dette trinnet hjelper deg også med å identifisere hvor dypere analyse er nødvendig.
Formålet med poengtolkning
Dette laget hjelper deg med å svare på spørsmål om klargjøring på høyt nivå, inkludert:
- Er agenten klar til å distribuere?
- Hvis ikke, hvilke områder krever oppmerksomhet først?
- Er det noen blokkeringsproblemer som må løses før videre gjentakelse?
Dette trinnet er med vilje enkelt. I de fleste tilfeller kan du fullføre det på 10–15 minutter ved hjelp av evalueringsresultatene du allerede har.
Før du starter
Før du starter dette laget, må du kontrollere at du har:
- Bestått eller mislykket resultater for individuelle testtilfeller.
- Aggregerte resultater for ett eller flere evalueringssett (for eksempel sikkerhet, jording, forretningskorrigering eller verktøybruk).
Hvis evalueringsresultatene ennå ikke er tilgjengelige, kjører du evalueringssettene først og går tilbake til dette trinnet når resultatene er tilgjengelige.
Tolke resultater på evalueringssettnivået
Start med å se gjennom evalueringssettresultater i stedet for individuelle testtilfeller.
Evalueringssett representerer ulike risiko- og kapasitetsområder, for eksempel sikkerhet, kjernevirksomhet, kunnskapsjording eller verktøyinvokasjon. Hvis du tolker poengsummer på dette nivået, kan du avgjøre om feil er isolerte eller systemiske.
Vurder følgende spørsmål:
- Er noen sikkerhets- eller samsvarsresultater under akseptable terskler?
- Oppfyller kjerneevalueringssettene minimumsforventningene?
- Hvilket evalueringssett er svakest i forhold til dens betydning?
På dette stadiet kan du fokusere på signal, ikke grunnårsak.
Tolke passeringshastigheter på to nivåer:
- Per evalueringssett: Hva betyr denne prosentandelen for den spesifikke funksjonen som testes?
- Per kvalitetssignal: Hva angir denne prosentandelen på tvers av alle evalueringssett som tester det samme signalet?
En lav passrate betyr ikke automatisk at agenten er feil. Det indikerer at etterforskning er nødvendig. Problemet kan være i agenten, evalueringsoppsettet eller plattformen.
Angi terskler basert på risiko
Ikke bruk de samme terskler for alle agenter. Angi terskler basert på agentens risikoprofil. Vurder følgende faktorer.
| Omregningsfaktor | Spørsmål å stille | Innvirkning på terskelen |
|---|---|---|
| Konsekvens av feil | Hva skjer hvis agenten tar feil? Ulempe? Økonomisk tap? Sikkerhetsrisiko? | Høyere konsekvens → høyere terskel |
| Hyppighet av bruk | Hvor ofte utløser brukere dette kvalitetssignalet? | Høyere frekvens → høyere terskel (mer eksponering) |
| Tilbakefallstilgjengelighet | Hvis agenten mislykkes, er det en menneskelig sikkerhetskopi? Hvor fort? | Ingen tilbakefall → høyere terskel |
| Målgruppe | Interne ansatte? Eksterne kunder? Regulert industri? | Ekstern eller regulert → høyere terskel |
Eksempel på risikobaserte terskler
Denne tabellen viser eksempelstartpunkter, ikke universelle standarder.
| Risikoprofil | Description | Sikkerhet og samsvar | Kjernevirksomhet | Funksjoner |
|---|---|---|---|---|
| Internt verktøy med lav risiko | Intern, menneskelig gjennomgang av alle utdata, domene med lav innsats | 90%+ | 75%+ | 65%+ |
| Kundebasert agent med middels risiko | Eksterne brukere, enkelte automatiseringsfeil, gjenopprettelige feil | 95%+ | 85%+ | 75%+ |
| Høyrisikoregulert/finansiell agent | Eksterne brukere, følgebeslutninger, forskriftsmessig eksponering | 98%+ | 92%+ | 85%+ |
| Sikkerhetskritisk agent | Helse, juridisk eller økonomisk rådgivning med begrenset menneskelig tilsyn | 99%+ | 95%+ | 90%+ |
Bruk disse eksemplene som ankere, og juster deretter basert på dine spesifikke risikohensyn.
Eksempel på terskelkalibrering
Følgende eksempel viser en mulig kalibrering for en kundestøtteagent med middels risiko.
| Kvalitetssignal | Startterskel | Blokkeringsterskel | Begrunnelsen |
|---|---|---|---|
| Sikkerhet og personopplysninger | 95-100% | < 95% blokker forsendelse | Enhver sikkerhetsfeil er høy risiko |
| Samsvar og ordrett innhold | 95-100% | < 95% blokker forsendelse | Forskriftsmessig eller juridisk eksponering |
| Faktisk nøyaktighet (kjernevirksomhet) | 85-95% | < 80% blokkerer forsendelsen | Forslag til kjerneverdi |
| Kunnskapsjording | 85-95% | < 80% blokkerer forsendelsen | Grunnlag for nøyaktighet |
| Aktivering av verktøy | 90-95% | < 85% hindrer levering | Pålitelighet for oppgaveutførelse |
| Utløserruting | 85-95% | < 80% blokkerer forsendelsen | Korrekthet i samtaleflyten |
| Eskalering og eleganse | 90-95% | < 85% hindrer levering | Sikkerhetsnett for brukeropplevelse |
| Tone- og responskvalitet | 80-90% | < 75% blokkerer forsendelse | Subjektivt signal |
Tips
Kalibrer, ikke kopier. Terskler bør gjenspeile akseptabel risiko for det bestemte brukstilfellet.
Fastslå status for beredskap
Bruk resultater fra evalueringssett til å bestemme en samlet klargjøringstilstand. Vanlige beredskapstilstander omfatter:
- Blokk: Sikkerhet, samsvar eller kritiske forretningsfeil hindrer distribusjon.
- Iterere: Agenten viser løfter, men krever målrettede forbedringer.
- Betinget distribusjon: Agenten kan distribueres med dokumenterte og overvåkede begrensninger.
- Distribuer: Agenten oppfyller terskler på tvers av alle nødvendige evalueringssett.
Grunnleggende klargjøringsbeslutninger om risikotoleranse og brukskontekst, ikke på én enkelt universell poengsum.
Tips
Betinget distribusjon med kjente hull er et legitimt resultat. Dokument godtar begrensninger og sporer dem over tid ved hjelp av malen for feillogg.
Fastslå når gjentakelsen er fullført
Bruk følgende vilkår til å bestemme når du kan gå utover triage til distribusjon eller overvåking.
Gjentakelse er fullført når:
- Alle evalueringssett er over deres terskler, inkludert de tersklene du har justert.
- Kjente hull er dokumentert med eiere og tidslinjer.
- Reruns produserer konsekvente poengsummer med mindre enn 5% varians mellom kjøringer.
- Ingen blokkeringsproblemer forblir klassifisert som agentkonfigurasjonsproblemer.
Gjentakelse er ikke fullført når:
- Terskler oppfylles uten å forstå gjenværende feil.
- Resultatene forbedres bare fordi vanskelige testtilfeller ble fjernet.
- Plattformbegrensninger godtas implisitt uten dokumentasjon.
Håndtering av ikke-determinisme i poengsummer
Språkmodellbaserte agenter og klassinger produserer variable utdata. Bruk følgende fremgangsmåter:
- Opprett opprinnelige planer: Kjør det fullstendige evalueringssettet minst tre ganger før du behandler en poengsum som en opprinnelig plan. Bruk gjennomsnittet som arbeidspoengsum. Med færre enn tre kjøringer kan du ikke skille ekte signal fra støy.
- Resultatvarians mellom kjøringer: Opptil 5% varians mellom kjøringer er normalt for språkmodellklassinger. Hvis kjøringer varierer med mer enn 10 %, må du undersøke graderingspålitelighet før du diagnostiserer agentproblemer. Finn ut mer i graderingsvalidering.
- Tolke poengendringer etter utbedring: For evalueringssett med færre enn 30 testtilfeller, endres et enkelt testtilfelle som endres fra, ikke til å bestå, resultatet med 3% eller mer. Ikke overtolk små bevegelser. For evalueringssett med 50 eller flere testtilfeller kan du behandle en endring på 5% eller mer som meningsfull. Når du er i tvil, kjører du evalueringen tre ganger på nytt og sammenligner gjennomsnittet med gjennomsnittet av grunnlinjen.
- Identifiser upålitelige testtilfeller (bestå noen ganger, mislykkes andre): Et testtilfelle som passerer to av tre testkjøringer, er på grensen. Undersøk nærmere. Er den forventede verdien for stiv (evalueringsoppsett), eller er agenten virkelig inkonsekvent (agentkonfigurasjon)? Hvis agenten produserer to forskjellige, men begge akseptable svar, er evalueringen for stiv.
Neste trinn
Når du tolker resultatene og identifiserer hvor du skal fokusere:
- Bruk Lag 2: Triage-feil for å diagnostisere mislykkede testtilfeller.
- Bruk lag 3: Tilordne feilmønstre til utbedringsstrategier for å bruke målrettede løsninger.
- Bruk lag 4: Analyser mønstre for å identifisere systemiske problemer.
- Se gjennom praktiske eksempler som viser hvordan rammelagene fungerer sammen i virkelige scenarier.
Hvis mer enn 10 testtilfeller mislykkes, analyserer du mønstre før du triage individuelle feil.