Verwacht antwoord toevoegen aan testcases voor de evaluatie van agenten

Geactiveerd voor Openbare preview Algemene beschikbaarheid
Beheerders, makers, marketeers of analisten, automatisch 21 sep 2025 -

Zakelijke waarde

Deze functie is ontworpen voor makers die Copilot Studio Agent Evaluation gebruiken om hun agents vóór en na de implementatie te valideren. Door ontwikkelaars het verwachte antwoord voor elke testcase te laten opgeven, kan het evaluatieframework de verschillende typen beoordelaars (Exact, Gedeeltelijk, Gelijkenis en Betekenis Vergelijken) nauwkeurig toepassen en duidelijke, herhaalbare resultaten produceren. Deze mogelijkheid bespaart tijd en resources door handmatige vergelijkingen in spreadsheets of externe hulpprogramma's te elimineren en geeft organisaties meer vertrouwen dat agents zich gedragen zoals bedoeld. Het verbetert de kwaliteit en naleving op schaal, versnelt releasecycli en vermindert de kosten voor het oplossen van problemen na live door hiaten vroeg in het testen te ondervangen.

Details van functies

Met de mogelijkheid Verwacht antwoord toevoegen kunnen makers de verwachte uitvoer voor elke testcase definiëren, bewerken en beheren. Deze invoer maakt rechtstreeks verbinding met het grader-framework en bepaalt hoe agentreacties worden geëvalueerd.

Belangrijkste mogelijkheden:

  • Configuratie per testcase

    • Makers voeren het verwachte antwoord in bij het maken of bewerken van een testcase.

    • Zowel korte, exacte antwoorden als langer, beschrijvende verwijzingen worden ondersteund.

  • Integratie met grader families

    • Exacte of gedeeltelijke overeenkomst: vereist exacte tekst of sleuteltermen om te valideren.

    • Gelijkenis: vergelijk semantische gelijkenis met de verwijzing.

    • Vergelijk betekenis (intentie): gebruikt het verwijzingsantwoord om de uitlijning van betekenis te beoordelen.

    • AI-metrische gegevens: er is geen verwijzing vereist; levert in plaats daarvan kwaliteitssignalen.

  • Validatie en bruikbaarheid

    • Inline foutafhandeling wanneer een beoordelingssysteem dat een verwijzing vereist, wordt geselecteerd zonder een verwachte respons.

Geografische gebieden

Ga naar het rapport Explore Feature Geography om de Microsoft Azure-gebieden te zien waar deze functie is gepland of beschikbaar is.

Beschikbaarheid van taal

Ga naar het rapport Functietaal verkennen voor informatie over de beschikbaarheid van deze functie.

Testcases maken om uw agent te evalueren (preview) (docs)