Utform en teststrategi for dine agenter

En godt planlagt teststrategi reduserer risikoen for at agenter svikter i produksjonen. Behandle testing som en kontinuerlig prosess gjennom hele en agents livssyklus. Lag tester for å verifisere at agentens kjernefunksjoner fungerer som tiltenkt. Deretter validerer du endringer for å sikre at de ikke introduserer regresjoner. Kjør alltid tester før utrulling til produksjonsmiljøet, og vurder å inkludere automatisert testing som en del av distribusjonspipelinen din.

En gjennomtenkt strategi for agenttesting inkluderer følgende elementer:

Testtype Description
Testing av utviklingstid Enhetstesting av individuelle komponenter under byggefasen.
Testing av kjernescenarioer Valider "happy path"-scenariet for kjernefunksjonaliteten til agenten for å bekrefte at resultatene er pålitelige.
Kunnskapstesting Vurder agentens kunnskap om et område med spesifikke spørsmål.
Regresjonstesting Test tidligere testtilfeller på nytt når endringer gjøres for å sikre at de fortsatt fungerer som forventet.
Fiendtlig testing Prøv spesielle tilfeller, forespørsler med ukjent hensikt, eller falsk informasjon.
Ytelses- og belastningstesting Simuler store forespørsler for å vurdere latens og skalerbarhet samtidig som du overvåker responstider under stress. Lær mer i Plan og lag en prestasjonstest for samtaleagenter.
Sikkerhets- og samsvarstesting Valider rollebasert tilgangskontroll (RBAC), betinget tilgang og håndhevelse av sensitivitetsetiketter samtidig som ingen konfidensielle data lekker.
Tilgjengelighet og UX-testing Sjekk for klarhet, tone og inkludering i svarene, og godkjenn flerspråklig støtte og tilgjengelighetsstandarder.

Vurder disse generelle prinsippene for å forbedre den overordnede testmetodikken:

  • Shift-left-testing: Start tidlig under utviklingen og fortsett gjennom utrulling.
  • Iterer og definer: Oppdater testtilfeller etter hvert som nye funksjoner eller kunnskap legges til.
  • Test før produksjon: Valider alltid i et staging-miljø før go-live.
  • Automatiser der det er mulig: Integrer automatiserte tester i CI/CD-pipelines for konsistens.

Evaluer agenter i Copilot Studio

I Copilot Studio kan du opprette et testsett av testtilfeller for å evaluere ytelsen til agentene dine. Du kan manuelt lage testspørsmål eller generere dem ut fra agentens instruksjoner, evner og kunnskap. Du kan til og med fylle ut testspørsmål fra tidligere testchatsamtaler i Copilot Studio.

Evalueringsmetodene som for øyeblikket er inkludert i Copilot Studio er:

  • Tekstmatchtestmetode: Sjekker om teksten er en eksakt match eller inneholder en delvis match eller spesifikke ord eller fraser.
  • Likhetstestmetode: Sammenligner likheten mellom agentens respons og forventet respons. Denne metoden er nyttig når det finnes flere riktige måter å formulere svaret på, men den overordnede betydningen er den samme.
  • Kvalitetstestmetode: Fastslår den generelle kvaliteten på en agents respons ved å bruke nøkkelkriterier som relevans, jordnærhet, fullstendighet og avholdenhet. Eller den sammenligner betydningen av agentens svar med det forventede svaret for intensjonslikhet.

Utføre massetesting ved hjelp av Copilot Studio Kit

Copilot Studio Kit inkluderer en testautomasjonspakke som gjør det mulig for beslutningstakere å teste agentnøyaktighet i stor skala. Du kan konfigurere individuelle tester ved å oppgi forventet brukeruttalelse, agentens svar og velge en testtype. Du kan gruppere flere tester i testsett som du kan tildele en agent som en del av en testkjøring.

Copilot Studio Kit støtter for øyeblikket differensierte testtyper, for eksempel svarkamp, emnekamp og flersving.

Utfør sikkerhets- og samsvarskontroller

  • Datapolicy og RBAC-validering: Sørg for at policyer, roller og tilkoblinger på miljønivå er riktig konfigurert i produksjonsmiljøet, og at de riktige datapolicyene er aktivert.

  • Azure management: Se gjennom og godkjenne integrert appregistrering, VNets, nøkler og endepunkter i Azure for produksjonsressursene.

  • Produksjonskunnskapskilder og data: Sørg for at alle produksjonskunnskapskilder (for eksempel SharePoint biblioteker) og produksjonsdokumenter er riktig referert til for produksjonsagenter, spesielt hvis du brukte forskjellige under utvikling og testing.

Neste trinn

Lær hvordan du pakker, versjoner og flytter agentene dine pålitelig på tvers av miljøer ved å bruke strukturerte Application Lifecycle Management (ALM)-praksiser.