Automatiser testing med agentevaluering

Etter hvert som AI-agenter tar på seg kritiske roller i forretningsprosesser, blir behovet for pålitelig og repeterbar testing avgjørende. Agentevaluering lar deg generere tester som simulerer virkelige scenarioer for agenten din. Disse testene dekker flere spørsmål og samtaler raskere enn manuell testing fra sak til sak. Deretter kan du måle nøyaktigheten, relevansen og kvaliteten på svarene på agentens samhandlinger, basert på informasjonen agenten har tilgang til. Ved å bruke resultatene fra testsettet kan du optimalisere agentens atferd og validere at agenten oppfyller dine forretnings- og kvalitetskrav.

Hvorfor bruke automatisert testing?

Agentevaluering gir automatisert, strukturert testing. Det hjelper til med å oppdage problemer tidlig, reduserer risikoen for dårlige svar, og opprettholder kvaliteten etter hvert som agenten utvikler seg. Denne prosessen gir en automatisert, repeterbar form for kvalitetssikring til agenttesting. Det sørger for at agenten oppfyller bedriftens nøyaktighets- og pålitelighetsstandarder og gir gjennomsiktighet i hvordan den fungerer. Det har andre styrker enn testing ved å bruke testchatten.

Agentvurdering måler korrekthet og ytelse, ikke AI-etikk eller sikkerhetsproblemer. En agent kan bestå alle evalueringstester, men likevel for eksempel gi et upassende svar på et spørsmål. Kunder bør fortsatt bruke ansvarlige ai-vurderinger og filtre for innholdssikkerhet. evalueringer erstatter ikke disse vurderingene og filtrene.

Begrensninger i Government Community Cloud

Agentevaluering i Government Community Cloud (GCC)-miljøer har følgende begrensninger:

Produsenter kan ikke legge til en brukerprofil i testsettene sine. Likevel kan produsenter fortsatt kjøre evalueringer uten brukerprofil.
Produsenter kan ikke bruke likhetstestmetoden for evalueringer. Alle andre testmetoder er tilgjengelige.

Hvordan agentevaluering fungerer

Copilot Studio bruker et test tilfelle for hver agentevaluering. Et testtilfelle er én enkelt interaksjon som simulerer hvordan en bruker samhandler med agenten din. Samhandlingen kan være ett enkelt spørsmål eller en hel samtale.

Et testtilfelle kan også inkludere svaret du forventer at agenten din skal svare med. Eksempel:

Spørsmålet: Hva er åpningstidene dine?
Forventet respons: Vi har åpent fra kl. 09.00 til 17.00 mandag til fredag.

Ved å bruke agentevaluering kan du generere, importere eller manuelt skrive en gruppe testtilfeller. Denne gruppen av testtilfeller kalles et testsett. Et testsett lar deg å:

Kjør flere testtilfeller som dekker et bredt spekter av funksjoner samtidig, i stedet for å stille agenten ett spørsmål om gangen.
Analyser agentens prestasjoner med en lettfattelig samlet poengsum, og zoom også inn på individuelle testtilfeller.
Test endringer i agentene dine ved å bruke det samme testsettet, slik at du har en objektiv standard for å måle og sammenligne endringer i ytelse.
Lag raskt nye testsett eller modifiser eksisterende for å dekke endrede agenters egenskaper eller krav.

Hvert testsett kan evaluere agenten din ved hjelp av flere testmetoder samtidig.

Du kan også velge en brukerprofil for å fungere som den stimulerte brukeren. Agenten kan være konfigurert til å svare ulike brukere på forskjellige måter, eller tillate tilgang til ressurser på forskjellige måter.

Når du velger et testsett og kjører en agentevaluering sender Copilot Studio spørsmålene i testtilfellene, registrerer agentens svar, sammenligner disse svarene mot forventede svar eller en kvalitetsstandard, og tilordner en poengsum til hvert testtilfelle. Du kan også se detaljene, transkripsjonen og aktivitetskarten for hvert testtilfelle, samt hvilke ressurser agenten din brukte for å lage svaret.

Opprett en omfattende evalueringsstrategi

Før du kjører evalueringer, kan du definere hvordan suksess ser ut for agenten din og bestemme hvilke scenarioer som er mest viktig for forretningsresultatene. En klar strategi hjelper deg med å velge de riktige testmetodene, prioritere testtilfeller med høy effekt og tolke resultater med riktig kontekst.

Bruk lösninger for arkitektur av agenter: Evalueringsrammeverk for å kartlegge hvordan forretningsmål kan tilknyttes målbare evalueringsdimensjoner og scoretilnærminger.
Bruk utforming og operasjonaliser agentevaluering for å bygge en repeterbar evalueringsprosess som støtter kontinuerlige kvalitetsforbedringer.

Testnettprat kontra agentevaluering

Hver testmetode gir deg ulike innsikter i agentens kvaliteter og atferd:

Testchat:

Mottar og svarer på ett spørsmål om gangen. Det er vanskelig å gjenta de samme testene flere ganger.
Lar deg teste en hel økt med flere meldinger.
Lar deg samhandle med agenten din som bruker ved å bruke et chattegrensesnitt.

Agentvurdering:

Kan opprette og kjøre flere testtilfeller samtidig ved hjelp av et testsett. Du kan gjenta tester ved å teste med samme testsett.
Kan teste ett spørsmål og ett svar per testtilfelle, eller én samtale per testtilfelle. Du har imidlertid mindre kontroll over samtalene enn når du bruker testchatten.
Velg ulike brukerprofiler for å simulere forskjellige brukere uten å måtte fullføre interaksjonene selv.

Når du tester en agent, bruk både testchatten og agentvurderingen for å få et fullstendig bilde av agenten din.

Tilbakemeldinger

Var denne siden nyttig?

Last updated on 2026-03-31