Använda kriterier i tester

Du kan använda kriterier i två distinkta lägen i Copilot Studio Kit-testautomation. Att förstå skillnaden mellan dessa lägen är viktigt för effektiv användning av funktionen Rubrics Refinement.

Lägen för användning av kriterier

Användning av kriterier i Copilot Studio Kit fungerar i två lägen:

Aspect Läge för testning (nivå för testfall) Förfiningsläge (testkörningsnivå)
Syfte Regelbunden testautomatisering med anpassad klassificering Iterativ förfining av kriterier
Tilldelningsnivå Enskilt testfall Hela testkörningen
Användningsfall Löpande kvalitetssäkring När du finjusterar kvalitet för bedömningsmatris
AI-resonemang Endast poäng (kostnadseffektivt) Poäng + detaljerad logik (dyrare)
Godkänt betyg Avgör godkänd eller underkänd Endast informationsindikator
Mål Identifiera svar av låg kvalitet Minimera AI-mänsklig felaktig överensstämmelse

Testningsläge: Kriterier för testfallsnivå

Testläget är utformat för regelbunden användning av ett förfinat kriterium för att automatisera klassificeringen av Generative Answer-testfall.

Använda testläge

Använd kriterier för testfallsnivå i Copilot Studio Kit när du:

  • Se till att ha ett förfinat, tillförlitligt anpassat kriterium redo för regelbunden användning.
  • Vill automatisera kvalitetskontroller för Generative Answer-svar i befintliga testuppsättningar.
  • Behöver anpassade utvärderingskriterier utöver standardvalidering i Copilot Studio Kit.

Tilldela en bedömningsmatris på testfallsnivå

Så här tilldelar du en rubrik för testfall:

  1. Öppna eller skapa ett testfall med Testtyp inställt som Generativa svar.
  2. Välj ett kriterier i listrutan Rubric . När du väljer ett ämne döljs fältet Förväntade svar/valideringsinstruktioner , eftersom kriteriet ersätter standardverifieringslogik.
  3. Ange godkänt betyg.
  4. Välj Spara.

Skärmbild av att tilldela en uppsättning kriterier på testfallsnivå.

Så här fungerar en bedömningsmatris på testkörningsnivå

När du tilldelar en bedömningsmall på testfallsnivå gör den följande:

  • Ersätter standardverifiering: Den kriteriebaserade AI-bedömaren ersätter standardlogik för verifiering av generativa svar.
  • Utvärderar svaret: AI-domaren utvärderar agentens svar genom användning av utvärderingskriterier.
  • Tilldelar ett betyg: En poäng från 1 till 5 genereras baserat på kriteriet.
  • Bestämmer godkänd eller underkänd:
    • Godkänd: Betyget är större än eller lika med tröskelvärdet för godkänt betyg.
    • Misslyckas: Betyget är mindre än tröskelvärdet för godkänt betyg.
  • Ingen detaljerad motivering: För att hålla kostnaderna låga tillhandahålls bara betyget, inte resonemanget.

Ställ in godkänt betyg

Godkänt betyg anger den lägsta godtagbara kvalitetsnivån:

Godkänt betyg Description Användningsfall
5 (förvalt) Endast exemplariska svar skickas Du behöver högsta kvalitetsstandarder
4 Starka eller bättre svar skickas Du accepterar högkvalitativa svar med mindre förbättringar som är möjliga
3 Godtagbara eller bättre svar godkänns Du behöver svar som uppfyller minimikraven för funktioner
2 Svar som är svaga eller bättre godkänns Du sätter en mycket låg ribba, vilket sällan rekommenderas
1 Alla svar godkänns utom det värsta Nästan aldrig lämpligt för kvalitetssäkring

För de flesta användningsfall för kvalitetssäkring använder du godkänd klass 5 eller 4 för att upprätthålla höga standarder.

Syftet med testläget

Testläget hjälper dig att:

  • Identifiera svar av låg kvalitet som behöver åtgärdas .
  • Automatisera regressionstestning med konsekventa utvärderingskriterier.
  • Skala kvalitetssäkring i många testfall.
  • Tillämpa domänspecifika standarder som allmän validering inte kan samla in.

Förfiningsläge: Kriterier för testkörningsnivå

Förfiningsläget stöder iterativ process för att skapa och förbättra ett kriterier genom att jämföra AI-klassificering med mänsklig klassificering.

Använd förfiningsläge

Använd testkörningsnivåens kriterier i Copilot Studio Kit när du:

  • Skapa eller förfina en bedömningsmatris.
  • Du måste anpassa AI-klassificeringen till mänskligt omdöme.
  • Vill jämföra AI och mänskliga utvärderingar.
  • Itererar för att förbättra mallens kvalitet.

Tilldela ett bedömningskriterium på testnivå

Så här tilldelar du en bedömningsmatris på testkörningsnivå:

  1. Öppna eller skapa en testkörning.
  2. Välj ett kriterier i listrutan Rubric .
  3. Ange godkänt betyg. Standardvärdet är 5 – (exemplariskt). Det här värdet är endast informativt i förfiningsläget, eftersom målet är anpassning, inte att uppnå poäng.
  4. Välj Spara och kör testkörningen.

Skärmbild av testkörningen med kriterier.

Hur en bedömningsmatris på testkörningsnivå fungerar

När du tilldelar bedömningskriterier på testkörningsnivån innebär det att:

  • Gäller för alla Generative Answer-tester: Det valda kriteriet åsidosätter alla kriterier som angetts på testfallsnivå.
  • Hoppar över icke-GA-testtyper: Testfall som inte är Generative Answers utesluts helt.
  • Kör AI-klassificering med resonemang: AI-domaren tillhandahåller båda:
    • Betyg (1-5): Kvalitetspoängen
    • Motivering: Detaljerade resonemang som förklarar betyget
  • Aktiverar förfiningsarbetsflöde: Resultaten inkluderar fält för mänsklig klassificering och justeringsindikatorer.
  • Är dyrare: Om du genererar detaljerade motiveringar ökar ai-bearbetningskostnaderna.

Förstå godkänt betyg

I finjusteringsläget är betyget Godkänt endast informativt, inte ett mål.

  • Syfte: Godkänt betyg hjälper dig att identifiera vilka svar som ligger under måltröskeln.
  • Inte målet: Målet med förfining är att minimera feljusteringen mellan AI och mänskliga betyg, inte att få alla svar att passera.
  • Exempel: Om du anger godkänt betyg som 5 och AI ger ett betyg på 3, visar det betyget att det här svaret inte når upp till din standard. Men det viktiga är om människan också betygsätter det som 3 (justering) eller annorlunda (feljustering).

Skillnad mellan test- och förfiningslägen

Betygskriterier utvalda på testfallsnivå Riktlinjer valda på testkörningsnivå Inga kriterier har valts
  • Testkörningen fortsätter normalt med alla testtyper.
  • AI-grader ger endast betyg (ingen motivering) för att uppnå kostnadseffektivitet.
  • Endast testfall med tilldelade kriterier använder AI-klassificering. andra använder standardverifiering.
  • Resultatvyn visar standardtestresultat.
  • Testkörning är specifikt för förfining av bedömningskriterier.
  • AI-grader ger betyg + motivering för generativa svar-tester.
  • Testtyper som inte är generativa svar hoppas över.
  • Verifieringsinstruktioner på testfallsnivå ignoreras.
  • Resultatvyn visar gränssnittet för förfining av kriterier med fält för mänsklig klassificering.
  • Standardverifiering av generativa svar gäller (meta-prompt + valideringsinstruktioner).
  • Pass eller fail bestäms av befintlig valideringslogik.
  • Resultatvyn visar standardtestresultat.

Beteendeanteckningar

Här följer några viktiga beteendeanteckningar för att förstå när du använder kriterier i olika lägen:

Rubrikhierarki och åsidosättningar

  • Kriterier för testkörningsnivå åsidosätter kriterier för testfallsnivå: Om du väljer ett kriterium på testkörningsnivån gäller det för alla Generative Answer-testfall och ignorerar eventuella kriterier som tilldelats enskilda testfall.
  • Kriterier för testfallsnivå är oberoende: När du inte väljer ett kriterium på testkörningsnivå använder varje testfall sitt eget kriterium (om det tilldelas) eller standardverifiering (om inte).

Testtyper för icke-generativt svar

När du väljer en bedömningsmatris på testkörningsnivån:

  • Icke-GA-testtyper hoppas över: Kriterier gäller endast för generativa svarstestfall.
  • Motivering: Kriterier är utformade för att utvärdera generativa svar, inte andra testtyper som åtgärd, ämne eller konversationsflöde.

När rubrik väljs på testfallsnivå:

  • Icke-GA-testtyper körs normalt: Endast ett specifikt Generative Answer-testfall använder kriteriet.

Valideringsinstruktioner och kriterier

  • Ömsesidigt uteslutande: Du kan inte använda kursbaserade klassificerings- och valideringsinstruktioner tillsammans.
  • När du väljer ett ämne: Fältet Verifieringsinstruktioner är dolt (testfallsnivå) eller ignoreras (testkörningsnivå).
  • Motivering: Kriteriet ersätter valideringslogik helt.

Kostnadsöverväganden

Läge AI-klassificeringstyp Rörelsens kostnader När du ska använda
Testläge (testfall) Endast betyg Lower
  • Regelbunden kvalitetssäkring
  • Testning med stora volymer
Förfiningsläge (testkörning) Betyg + motivering Högre
  • Förfining av rubrik
  • Justeringsanalys
  • Iterativ förbättring med låg volym

Arbetsflöde: Från förfining till testning

Det typiska arbetsflödet går från förfining till testning.

Fas 1: Förfining av bedömningskriterier (testnivå)

  1. Skapa ett första kriteriet.
  2. Tilldela en bedömningsmall på testkörningsnivå.
  3. Kör testkörning med AI-klassificering plus motivering.
  4. Ge mänskliga betyg.
  5. Jämför inriktning.
  6. Förfina värderingskriterier baserat på bristande överensstämmelse.
  7. Upprepa tills justeringen är acceptabel.

Fas 2: Regelbunden testning (nivå för testfall)

  1. Se till att en bedömningsmall är förfinad och tillförlitlig.
  2. Tilldela en bedömningsmatris på testkörningsnivå.
  3. Använd en bedömningsmall i den pågående testautomatiseringen.
  4. AI-klassificering utan motivering (kostnadseffektiv).
  5. Godkänn eller icke godkänt baserat på betyget godkänt.
  6. Återgå till förfining om kvalitetsproblem uppstår.

Välj rätt läge

Välj mellan testläge (testfallsnivå) och förfiningsläge (testkörningsnivå) baserat på dina aktuella mål och var du befinner dig i livscykeln för utveckling av kriterier.

Använd testläge (testfallsnivå)

Använd testläget (testfallsnivå) om:

  • Dina kriterier är stabila och väljusterade.
  • Du håller på med rutinmässig kvalitetssäkring.
  • Du behöver kostnadseffektiv automatiserad klassificering.
  • Att uppnå godkänt eller underkänt resultat är ditt främsta fokus.

Använd förfiningsläge (testkörningsnivå)

Använd förfiningsläget (testkörningsnivå) om:

  • Du skapar en ny bedömningsmall.
  • Du förbättrar en befintlig bedömningsmall.
  • Du måste jämföra AI och mänskligt omdöme.
  • Du vill förstå AI-resonemang.
  • Justeringsanalys är ditt primära mål.

Regelverk

Använd följande metodtips för att effektivt använda kriterier i både test- och förfiningslägen:

  1. Börja med förfiningsläget: Förfina alltid ett kriterier med hjälp av tilldelning på testkörningsnivå innan du distribuerar det på testfallsnivå för regelbunden testning.
  2. Använd representativa testfall: För förfining väljer du testfall som representerar de olika svar som du kan stöta på i produktion.
  3. Ange realistiska godkända betyg: Använd inte standardbetyget 5 som godkänt om du inte verkligen behöver utmärkt kvalitet för varje svar. Överväga:
    • Betyg 5: Reservera för kritisk kommunikation (IR-rapporter, verkställande sammanfattningar).
    • Betyg 4: Lämplig för de flesta affärskommunikationer.
    • Betyg 3: Lägsta funktionskvalitet för interna verktyg.
  4. Övervaka justering över tid: Även raffinerade kriterier kan glida. Återgå regelbundet till förfiningsläge för att kontrollera anpassningen med aktuella förväntningar.
  5. Syftet med dokumentets bedömningsmatris: Lägg till anteckningar i beskrivningen av din bedömningsmatris om:
    • Avsett användningsfall
    • Målsatt godkänt betyg
    • Eventuella särskilda överväganden
  6. Testa på testkörningsnivå innan du sparar förändringar: Innan du tilldelar en ny bedömningsmatris för många testkörningar, kör först en testkörning med den för att verifiera att den fungerar som förväntat.

Läs mer i Metodtips och tips för förfining av kriterier.

Nästa steg