Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Agentbeoordeling moet een iteratief proces zijn, beginnend bij de fase van het visualiseren en ontwerpen van agenten, en doorlopend tot agentinzet en regressiedetectie. Dit sjabloon biedt de essentiële elementen voor het bouwen van evaluatietestsets en hoe een vier fasen structuur geïmplementeerd en doorlopen kan worden gedurende de gehele levenscyclus van een agent.
- Fase 1: Bouw fundamentele evaluatietestsets
- Fase 2: Een basislijn instellen en verbeteren
- Fase 3: Systematische uitbreiding implementeren
- Fase 4: Zet een continue kwaliteitsverbeteringsevaluatie op
Tip
Download het bewerkbare checklist-sjabloon.
Fase 1: Opbouw van fundamentele evaluatiesets
Doel: Een basisevaluatietestset creëren en uitvoeren die de kernscenario's van de agent beoordeelt.
Een evaluatietestset is een groep testgevallen. Een testgeval is een individueel prompt-en-respons paar om het antwoord van een agent op een specifieke vraag te evalueren. Het bevat een testprompt en een optionele verwachte respons (assertie) die direct voortkomt uit de agentinstructie-vereiste. Een testgeval moet ook de acceptatiecriteria en testmethode specificeren om de kwaliteit te evalueren.
| Agentscenario1 | Testprompt (Voorbeeldvraagprompt aan de agent) |
Verwacht antwoord | Acceptatiecriteria2 (Definieer hoe een succesvolle reactie eruitziet: Wat wordt aangenomen en wat niet) |
|---|---|---|---|
| De agent moet de inhoud van het beleid beantwoorden op basis van het artikel over beleidskennis. | "Hoeveel ziektedagen krijgt een werknemer?" | "30 dagen. <bronvermelding>" | Het antwoord moet exact de tekst van de beleidskennis en de tekstmatch bevatten. De reactie moet een bronvermelding bevatten. |
| De agent mag geen vragen beantwoorden buiten het artikel over poliskennis. Directe antwoorden aan HR-menselijke ondersteuning. | "Hoeveel ziektedagen krijgt een werknemer?" | "Het beleidsdocument specificeert de ziekteverlofdagen niet. Overleg HR over je ziekteverlofbeleid." | Reactie op een verboden zaak moet worden doorgestuurd naar menselijke HR-ondersteuning. |
Tip
1Agentscenario: Een fundamentele testset moet testcases bevatten die de belangrijkste scenario's of gebruikssituaties van de agent behandelen. Gebruik het agentscenario als richtlijn en richt je op wat de agent moet afhandelen of vermijden. Dit proces helpt je een gerichte lijst met testprompts samen te stellen en moet nauw worden afgestemd op de ontwikkeling van agentinstructies. Om het juiste aantal testgevallen te bepalen, begin je met één testprompt voor elk sleutelscenario. Begin met een kleine set testcases, en itereren en verfijnen vervolgens naarmate je inzichten krijgt en de dekking verbetert.
2Acceptatiecriteria: Definieer duidelijk wat succes inhoudt. Deze definitie kan in het begin uitdagend zijn, dus overweeg om je criteria te verfijnen door iteratie. Voer de testprompt uit, bekijk het antwoord en beoordeel de kwaliteit door te vragen: Beantwoordt het de hoofdvraag? Gebruikt het de juiste informatie? Is de toon en stijl passend? Respecteert het deelrechten? Uw inzichten uit deze vragen helpen u acceptatiecriteria vast te stellen en, indien nodig, een verwacht antwoord.
Fase 2: Stel een basislijn vast en verbeter
Doel: Voer evaluaties uit en stel basislijnmetrics vast om te benchmarken en te verbeteren.
Je kunt de evaluatie handmatig uitvoeren of gespecialiseerde hulpmiddelen gebruiken. Voor handmatige evaluatie stuur je de testprompt naar de agent, bekijk je de reactie, gebruik je menselijk oordeel om te bepalen of deze aan de acceptatiecriteria voldoet en registreer je het resultaat. Microsoft biedt hulpprogramma's voor agentevaluatie, waaronder de evaluatiefunctie Copilot Studio-agent.
Stel de basislijn vast
- Voer de basistest uit tegen de agent.
- Noteer of een testgeval geslaagd is of niet.
- Bereken het totale slagingspercentage: ______%.
- Noteer de versie van de agent en de basisdatum: ___________.
Oorzaakanalyse en iteratie
Bekijk de evaluatieresultaten om valse positieven en echte negatieve resultaten te identificeren voor verdere analyse. Op basis van menselijk oordeel is een vals positief antwoord er een dat als geslaagd wordt gemarkeerd, maar dat eigenlijk zou moeten falen. Een echt negatief antwoord is een antwoord dat correct als een mislukking wordt geïdentificeerd. Beoordeel de mislukte gevallen vanuit twee perspectieven:
- Testcaseprobleem: Is het de testprompt, het verwachte antwoord of de acceptatiecriteria die het falen veroorzaakt?
- Probleem met het ontwerp van agenten: Wijst de storing op onduidelijke agentinstructies, of op fouten in kennis of toolconfiguratie?
Identificeer de oorzaak en verbeter door het testgeval te verfijnen of het ontwerp van het middel te verbeteren.
Tip
Evaluatie slagscore: Agenten kunnen verschillende antwoorden geven op dezelfde prompt vanwege hun probabilistische aard. Deze variabiliteit kan ertoe leiden dat antwoorden slagen of falen, afhankelijk van hoe streng de acceptatiecriteria zijn. Om een betrouwbare evaluatie te garanderen, voer je elke testset meerdere keren uit en bereken je het gemiddelde slagingspercentage. Streef naar een realistisch slagingspercentage van 80-90%, gebaseerd op de behoeften van je bedrijf.
Fase 3: Voer systematische uitbreiding uit
Doel: Bouw uitgebreide evaluatiesuites op verschillende kwaliteitcategorieën van agenten.
Fasen 1 en 2 legden de basistest vast voor de primaire gebruiksscenario's van de agent. Verbreed vervolgens je evaluatie door testsets te maken die verschillende categorieën van agentkwaliteit beoordelen. De volgende lijst suggereert categorieën die verschillende aspecten van kwaliteit behandelen.
| Kwaliteitscategorie | Doel |
|---|---|
| Fundamentele kern | De "must pass"-set. Het meet de essentiële responskwaliteit bij de inzet en voert regressiedetectie uit tijdens de operatie. |
| Agentrobuustheid | De kernwaarde van één agent ten opzichte van traditionele software is de robuustheid in het omgaan met verschillende gebruikssituaties. Deze waarde kan het volgende omvatten:
|
| Architectuurtest | Evalueer de functionele prestaties van de agent. Afmetingen kunnen onder andere zijn:
|
| Randgevallen | Hoe de agent met randgevallen met vangrails moet omgaan.
|
Tip
Categorie doel referentie:
- Core faalt: Iets is kapot of werkt niet. Onderzoek recente veranderingen.
- Robuustheid faalt: Agent is te streng. Het kan te veel gericht zijn op specifieke formuleringen.
- Architectuur faalt: Een specifieke component of workflow moet worden gedebugd.
- Uitzonderingsgevallen falen: Beveiligingsmaatregelen moeten verbeterd worden. Versterk grenzen.
Fase 4: Zet een continue kwaliteitsverbeteringsevaluatie op
Doel: Continu evaluatiemonitoring instellen om de kwaliteit van de agenten tijdens de werkzaamheden te behouden.
Zodra je een agent in productie zet, komt deze in een stabiele fase. Om de kwaliteit te behouden en snel regressies of problemen door productwijzigingen (zoals modelupgrades of kennissysteemupdates) of veranderende gebruikssituaties op te sporen, zet een doorlopende evaluatie op. Plan regelmatige evaluaties of activeer ze op basis van specifieke gebeurtenissen voor kwaliteitscontrole.
- Stel een regelmatige evaluatie-onderhoudscyclus in.
- Voorgestelde triggers voor volledige suite evaluatie:
- Modelwijziging
- Update van grote kennisopstelling
- Nieuwe tool- of connectorintegraties
- Productieincident
Tip
Succesindicator: Je operationaliseert succesvol wanneer je de zorgen van belanghebbenden met details kunt beantwoorden, in plaats van te zeggen: "De agent lijkt oké."
Je zegt: "Beleidsnaleving is op 98%, maar personalisatie is gedaald naar 87%—specifiek worden dienstverband gebaseerde beleidsmaatregelen niet toegepast. We hebben de oorzaak gevonden en zijn bezig met itereren."