Ontwerp een teststrategie voor je agenten

Een goed doordachte teststrategie vermindert het risico dat agents tijdens de productie falen. Behandel testen als een continu proces gedurende de levenscyclus van een agent. Maak tests om te verifiëren dat de kernfunctionaliteiten van de agent functioneren zoals bedoeld. Valideer vervolgens veranderingen om te zorgen dat ze geen regressie introduceren. Voer altijd tests uit voordat je wordt uitgezet in de productieomgeving en overweeg geautomatiseerd testen als onderdeel van je deployment-pijplijn.

Een goed doordachte strategie voor agententesten omvat de volgende elementen:

Test type Beschrijving
Testen tijdens ontwikkeltijd Unittesten van individuele componenten tijdens de bouwfase.
Kernscenario-testen Valideer het "happy path"-scenario voor de kernfunctionaliteit van de agenten om te bevestigen dat de resultaten betrouwbaar zijn.
Kennis testen Beoordeel de kennis van de agent over een domein met specifieke vragen.
Het testen van regressie Test eerdere testgevallen opnieuw wanneer er wijzigingen worden aangebracht om te zorgen dat ze nog steeds werken zoals verwacht.
Adversarieel testen Probeer randgevallen, zoekopdrachten met onbekende intentie, of valse informatie.
Prestatie- en belastingtesten Simuleer grote aanvragen om latentie en schaalbaarheid te beoordelen terwijl je de responstijden onder stress monitort. Lees meer in Plan en maak een prestatietest voor conversatieagenten.
Beveiligings- en nalevingstests Valideer rolgebaseerde toegangscontrole (RBAC), voorwaardelijke toegang en handhaving van gevoeligheidslabels, terwijl er geen vertrouwelijke gegevens worden gelekt.
Toegankelijkheid en UX-testen Controleer op duidelijkheid, toon en inclusiviteit in de antwoorden en valideer meertalige ondersteuning en toegankelijkheidsnormen.

Overweeg deze algemene principes om de algehele testmethodologie te verbeteren:

  • Shift-left testen: Begin vroeg tijdens de ontwikkeling en ga door tot en met de uitrol.
  • Itereren en definiëren: Update testcases zodra nieuwe functies of kennis worden toegevoegd.
  • Test vóór productie: Valideer altijd in een staging-omgeving voordat je live gaat.
  • Automatiseer waar mogelijk: Integreer geautomatiseerde tests in CI/CD-pijplijnen voor consistentie.

Agents evalueren in Copilot Studio

In Copilot Studio kunt u een testset maken van testcases om de prestaties van uw agents te evalueren. Je kunt handmatig testvragen maken of genereren op basis van de instructies, mogelijkheden en kennis van de agent. U kunt zelfs testvragen invullen vanuit eerdere testchatgesprekken in Copilot Studio.

De evaluatiemethoden die momenteel zijn opgenomen in Copilot Studio zijn:

  • Tekstmatchtestmethode: Controleert of de tekst exact overeenkomt of een gedeeltelijke overeenkomst of specifieke woorden of zinnen bevat.
  • Gelijkenistestmethode: Vergelijkt de gelijkenis van de reactie van de agent met de verwachte reactie. Deze methode is nuttig wanneer er meerdere juiste manieren zijn om het antwoord te formuleren, maar de algemene betekenis hetzelfde blijft.
  • Kwaliteitstestmethode: Bepaalt de algemene kwaliteit van de respons van een agent door gebruik te maken van belangrijke criteria zoals relevantie, gegrondheid, volledigheid en onthouding. Of het vergelijkt de betekenis van het antwoord van de agent met de verwachte reactie op intentiegelijkenis.

Bulksgewijs testen met behulp van de Copilot Studio Kit

De Copilot Studio Kit bevat een testautomatiseringspakket waarmee makers de nauwkeurigheid van de agent op schaal kunnen testen. Je kunt individuele tests configureren door de verwachte gebruikersuiting te geven, de agentrespons en het selecteren van een testtype. Je kunt meerdere tests groeperen in testsets die je aan een agent kunt toewijzen als onderdeel van een testrun.

Copilot Studio Kit ondersteunt momenteel gedifferentieerde testtypen, zoals antwoordovereenkomst, onderwerpovereenkomst en multi-turn.

Voer beveiligings- en nalevingscontroles uit

  • Gegevensbeleid en RBAC-validatie: Zorg ervoor dat beleidsregels, rollen en verbindingen op omgevingsniveau correct zijn geconfigureerd in de productieomgeving en of het juiste gegevensbeleid is ingeschakeld.

  • Azure management: Geïntegreerde app-registratie, VNets, sleutels en eindpunten controleren en goedkeuren in Azure voor uw productiebronnen.

  • Productiekennisbronnen en gegevens: Zorg ervoor dat alle productiekennisbronnen (bijvoorbeeld SharePoint-bibliotheken) en productiedocumenten correct zijn gerefereerd voor productieagenten, vooral als u verschillende hebt gebruikt tijdens de ontwikkeling en testfase.

Volgende stap

Leer hoe je je agents betrouwbaar tussen omgevingen kunt verpakken, versieën en verplaatsen door gebruik te maken van gestructureerde Application Lifecycle Management (ALM)-praktijken.