Lägga till förväntat svar för testfall för agentutvärdering

Aktiverat för Offentlig förhandsversion Allmän tillgänglighet
Administratörer, utvecklare, marknadsförare eller analytiker, automatiskt 21 sep, 2025 -

Affärsvärde

Den här funktionen är utformad för tillverkare som använder Copilot Studio Agent Evaluation för att verifiera sina agenter före och efter distributionen. Genom att låta skaparna ange det förväntade svaret för varje testfall kan utvärderingsramverket korrekt tillämpa de olika graderstyperna (Exact, Partial, Similarity och Compare Meaning) och ge tydliga, repeterbara resultat. Den här funktionen sparar tid och resurser genom att eliminera manuella jämförelser i kalkylblad eller externa verktyg och ger organisationer större förtroende för att agenter beter sig som avsett. Det förbättrar kvaliteten och efterlevnaden i stor skala, påskyndar lanseringscyklerna och minskar kostnaderna för att åtgärda problem efter användning genom att fånga upp luckor tidigt i testningen.

Information om funktionen

Med funktionen Lägg till förväntat svar kan tillverkare definiera, redigera och hantera förväntade utdata för varje testfall. Denna inmatning ansluter direkt till graderingssystemet och bestämmer hur agentsvar utvärderas.

Viktiga funktioner:

  • Testfallsspecifik konfiguration

    • Skaparna anger det förväntade svaret när de skapar eller redigerar ett testfall.

    • Både korta, exakta svar och längre beskrivande referenser stöds.

  • Integration med bedömningsfamiljer

    • Exakt eller partiell matchning – kräver exakt text eller nyckelfraser för att validera.

    • Likhet – jämför semantisk likhet med referensen.

    • Jämför innebörd (avsikt) – använder referenssvaret för att bedöma innebördens justering.

    • AI-mått – kräver ingen referens. ger kvalitetssignaler i stället.

  • Validering och användbarhet

    • Intern felhantering om en bedömare som kräver en referens väljs utan ett förväntat svar.

Geografiska områden

Besök rapporten Utforska funktionsgeografi för Microsoft Azure-områden där den här funktionen är planerad eller tillgänglig.

Språktillgänglighet

Besök rapporten Utforska funktionsspråk för information om den här funktionens tillgänglighet.

Skapa testfall för att utvärdera din agent (förhandsversion) (dokument)