Del via


Forbedre agenttesting med Copilot Studio Kit

Power CAT Copilot Studio Kit er et brukervennlig program som lar deg bekrefte agentsvar. Det inkluderer også opprinnelige funksjoner som Excel eksportere og importere for masseoppretting og oppdateringer.

Konfigurere, kjøre og analysere

Konfigurer og kjør tester mot Copilot Studio API-er (Direct Line API) for å evaluere agentsvar mot forventede resultater.

Hvis du vil berike resultatene, henter du flere datapunkter fra Azure Application innsikter og dataverse ved å analysere oppføringer for samtaleavskrift (for eksempel det nøyaktige utløste emnenavnet og poengsummer for hensiktsgjenkjenning).

For AI-genererte svar, som er ikke-deterministiske av natur, kan du bruke ledetekster for å sammenligne det genererte svaret med et eksempelsvar eller valideringsinstruksjoner.

Diagram som viser Azure- og Power Platform-komponenter som er involvert i testing og analyse av Copilot Studio Direct Line API-er, inkludert Azure Application Innsikter, AI Builder og Dataverse.

Testtyper

Verktøyet støtter disse testtypene:

  • Svartreff
  • Vedlegg som Dynamiske kort
  • Emne samsvar (krever Dataverse)
  • Generative svar (krever AI Builder for svaranalyse og programinnsikt for detaljer om hvorfor et svar ikke ble generert)
  • Testtype med flere svinger er en spesiell testtype. Den består av et sett med testtilfeller av vanlige typer som kjører i en angitt rekkefølge i samme samtalekontekst. Bruk flersvingstester til å teste scenarioer fra ende til ende, og for å teste egendefinerte agenter med generativ orkestrering.
  • Med planvalidering kan beslutningstakere validere at deres egendefinerte agenter som bruker generativ orkestrering, inkluderer de forventede verktøyene. I stedet for å evaluere hva agenten sier, kontrollerer denne testtypen at agentens dynamiske plan inkluderer de forventede verktøyene (verktøy, handlinger og tilkoblede agenter) til en forhåndsbestemt terskel.

Lær mer om testtyper i Konfigurer tester i Copilot Studio Kit.

Skjermbilde av resultatdetaljene for testkjøring, inkludert grafikk som viser suksessrate og ventetid for alle testkjøringer.

Neste trinn