Metodtips och tips för förfining av kriterier

Den här artikeln innehåller metodtips och tips för att förfina kriterier i Copilot Studio Kit.

Riktlinjer för design av matriser

Här följer några viktiga riktlinjer för att utforma effektiva kriterier för AI-utvärdering.

Vara domänspecifik

Generiska kriterier ger dålig justering. Skriv för ditt specifika användningsfall.

För allmänt:

What good looks like: A helpful, accurate response
Grade 5: Excellent response
Grade 1: Bad response

Domänspecifik:

What good looks like: A professional investor relations response that includes
relevant financial metrics, explains business drivers, maintains formal tone,
and provides forward-looking context appropriate for shareholder communications.

Grade 5 (Exemplary): Includes all key IR elements (KPIs, performance drivers,
strategic context, forward-looking insights), maintains polished professional
tone, flows logically, and requires no improvements.

Använda observerbara, mätbara kriterier

Undvik subjektiva termer som olika utvärderare kan tolka på olika sätt.

Ämnesämne:

Grade 5: Response feels right and sounds professional
Grade 3: Response is okay but could be better

Observerbar:

Grade 5: Response includes specific metrics with context, explains causal
relationships, uses industry-standard terminology, follows structured format
(intro-body-conclusion), and avoids jargon.

Grade 3: Response includes basic metrics but lacks context, provides minimal
explanation of drivers, uses acceptable but generic language, and has some
organizational gaps.

Skapa tydliga betygsskillnader

Varje betygsnivå bör ha tydliga, särskiljbara egenskaper.

Teknik: Använd progressiv specificitet

  • Betyg 5: Alla kriterier, plus polering och inga luckor
  • Betyg 4: Alla kriterier, plus mindre luckor eller mindre polering
  • Betyg 3: Grundläggande kriterier uppfylldes, men med märkbara luckor
  • Betyg 2: Nyckelkriterier saknas och har betydande problem
  • Betyg 1: Uppfyller inte förväntningarna

Exempel:

Grade 5: Includes metrics, drivers, context, and forward insights; professional
         tone; logical flow; investor-ready polish
Grade 4: Includes metrics, drivers, and context; mostly professional tone;
         generally logical flow; minor polish needed
Grade 3: Includes metrics and basic context; acceptable tone but generic;
         functional but lacks depth
Grade 2: Missing key metrics or context; inconsistent tone; gaps in logic
Grade 1: Missing most expected elements; unprofessional tone; confusing structure

Fokusera på flera kvalitetsdimensioner

Överväg alla relevanta aspekter av kvalitet:

Dimension Frågor att ta itu med
Noggrannhet Är informationen korrekt och faktabaserad?
Fullständighet Ingår alla nödvändiga element?
Relevance Adresserar den den specifika frågan?
Groundedness Stöds det av källmaterial?
Ton Är formatet lämpligt för målgruppen?
Klarhet Är det lätt att förstå?
Struktur Är det välorganiserat?
Kontext Ger den nödvändig bakgrund?
Professionalism Uppfyller den standarder för affärskommunikation?

Du behöver inte behandla alla dimensioner i varje rubrik. Fokusera på det som är viktigt för ditt användningsfall.

Led med det som är viktigast

Placera de viktigaste kriterierna först i dina betygsdefinitioner.

Bra prioritering:

Grade 5:
• [Most critical] Accuracy: All facts correct and grounded in source material
• [Very important] Completeness: Includes all required metrics and context
• [Important] Tone: Professional and appropriate for IR communications
• [Nice to have] Polish: Well-structured with logical flow

Den här metoden hjälper både mänskliga utvärderare och AI-utvärderare att fokusera på det som verkligen är viktigt.

Undvik redundans mellan olika betyg

Upprepa inte samma språk för varje betygsnivå.

Redundant:

Grade 5: Professional tone, includes metrics, provides context
Grade 4: Professional tone, includes metrics, provides context
Grade 3: Professional tone, includes metrics, provides context

Progressiv:

Grade 5: Polished professional tone, comprehensive metrics with deep context
Grade 4: Professional tone, key metrics with adequate context
Grade 3: Acceptable tone, basic metrics with minimal context

Ta med grunderna för standarder

Förklara varför vissa kriterier är viktiga, särskilt för icke-uppenbara standarder.

Exempel:

Tone should be professional and consistent with corporate IR voice because
investor communications must maintain credibility and trust. Casual or
marketing-like language undermines confidence in financial reporting and
may violate regulatory expectations.

Den här förklaringen hjälper både AI-utvärderare och mänskliga utvärderare att förstå "varför" bakom standarder.

Antal testfall som ska användas för förfining

Använd dessa riktlinjer för att välja antalet testfall för effektiv förfining av kriterier.

Minsta livskraftiga uppsättning

  • Minst 15–20 testfall för inledande förfining
  • Inkludera tillräckligt med variation för att täcka olika frågetyper och svarsmönster
  • Upprätthålla en balans mellan arbete och täckning
  • 30–50 testfall för robust förfining
  • God statistisk representation av justering
  • Omfattar extremfall och olika fall

Storskalig uppsättning

  • 50–100+ testfall för omfattande förfining
  • Bäst för kritiska användningsfall som kräver hög konfidens
  • Ger starka justeringsmått

Kvalitet över kvantitet

Viktigare än talet:

  • Variation: Olika typer av frågor och svar
  • Representant: Återspeglar verklig användning
  • Specialfall: Inkluderar utmanande eller tvetydiga scenarier
  • Konsekvent: Samma testuppsättning som används mellan iterationer

Tips/Råd

Börja med 20–30 testfall. Lägg till mer om du ser hög varians i justeringen eller om testfallen är för homogena.

När man ska iterera kontra när man ska sluta

Använd dessa riktlinjer för att bestämma när du ska fortsätta iterera på din kurs och när du ska stoppa och övergå till testläge.

Fortsätt iterera

Fortsätt iterera om:

  • Justeringen är under 75%.
  • Det finns tydliga mönster för feljustering.
  • AI misstolkar konsekvent specifika kriterier.
  • Du har identifierat nya exempel som kan vara till hjälp.
  • Justeringen förbättrades avsevärt under den senaste iterationen (momentum).

Överväg att stoppa

Överväg att stoppa om:

  • Justeringen är konsekvent 80–90 % och över.
  • Återstående feljustering visas slumpmässigt (inga mönster).
  • De senaste två eller tre iterationerna visar minimal förbättring.
  • Feljusteringen är liten (med en punkts avvikelse) och acceptabel.
  • Ytterligare iterationer gör att kriteriet överanpassas för att testa fall.

Förfiningsstoppkriterier

Justering Rekommendation
90%+ Utmärkt – stoppa och övergå till testläge
80-89% Mycket bra – en eller två iterationer till och stoppa sedan
75-79% Bra – fortsätt med två eller tre iterationer till
60-74% Fair – fortsätt att förfina; överväga omdesign av kriterier om det inte förbättras
< 60% Poor – större förfining krävs eller omformning av kriterier

Minskande avkastning

Spåra justeringsförbättringar mellan iterationer:

  • Iteration 1 → 2: +15% förbättring → Fortsätt
  • Iteration 2 → 3: +8% förbättring → Fortsätt
  • Iteration 3 → 4: +2% förbättring → Överväg att stoppa snart
  • Iteration 4 → 5: +1% förbättring → Stoppa

Undvik bias i mänsklig gradering

Här är några vanliga källor till bias i mänsklig klassificering under förfining av bedömningsmallar och strategier för att minimera dem.

Bias-problemet

Mänskliga betyg kan påverkas av:

  • AI-betyg: Se AI:s utvärdering innan du skapar en egen.
  • Godkännandeförväntningar: Att vilja att svar godkänns snarare än att betygsättas ärligt.
  • Bekräftelsefördomar: Letar efter bevis som stöder ditt första intryck.
  • Förankring: Första svaret som du betygsätter påverkar efterföljande betyg.

Strategier för att minimera bias

Använd dessa strategier för att minska bias i din bedömningsprocess:

Använd standardförfiningsvyn först

  • Betygsätta i standardförfiningsvyn (AI dold).
  • Bilda dig en egen åsikt innan du ser AI-utvärdering.
  • Växla endast till Fullständig vy när du har slutfört dina betyg.

Referera till kriteriet hela tiden

  • Håll kriteriet öppet under klassificeringen.
  • Matcha svaret tydligt mot kriterier.
  • Förlita dig inte på magkänsla ensam.

Betygsätta i batchar

  • Betyg 5-10 testfall åt gången.
  • Ta pauser mellan batchar.
  • Upprätthålla konsekventa standarder mellan sessioner.

Betyg före märkningsexempel

  • Första passet: Tilldela betyg och resonemang.
  • Andra passet: Markera bra eller dåliga exempel.

Den här metoden förhindrar att exempelval påverkar betyg.

Ignorera resultat för pass eller fail

  • Kom ihåg att målet är justering, inte att skicka poäng.
  • Betyg ärligt baserat på kvalitet.
  • Ett svar av låg kvalitet bör få ett lågt betyg även om du önskar att det var bättre

Kalibrera med en partner

Om möjligt:

  • Låt en kollega betygsätta en delmängd av testfallen.
  • Jämför dina betyg med deras.
  • Diskutera skillnader och anpassa dig efter standarder.

Den här metoden förbättrar samstämmigheten.

Skriv effektivt resonemang

Ditt mänskliga resonemang är avgörande för förfining av riktlinjer. AI:n analyserar dina förklaringar för att förstå vad som är viktigt.

Vad kännetecknar ett bra resonemang?

Specifik och detaljerad:

Grade 4 (Strong): Response includes accurate automotive diagnostic information
and identifies the likely cause (worn brake pads). Provides clear next steps
(inspection and replacement). Tone is professional and reassuring. However,
it lacks specific cost estimates and timeline, which would make it exemplary
for our customer service standards.

Vaga och generiska:

Grade 4: Pretty good response. Has most of what's needed.

Element i ett effektivt resonemang

  • Kriterier för referensriterium

    • "Innehåller obligatoriska mått" → Vilka mått?
    • "Professionell ton" → Vad gör det professionellt?
    • "Saknar kontext" → Vilken kontext saknas?
  • Förklara ditt betygsbeslut

    • Varför detta betyg och inte högre eller lägre?
    • Vad skulle göra det bättre (för betyg < 5)?
    • Vad hindrar det från att vara sämre (för betyg > 1)?
  • Var specifik

    • Ange specifika delar av svaret.
    • Identifiera specifika element som saknas.
    • Peka på specifika kvalitetsproblem.
  • Hantera flera dimensioner

    • Fokusera inte bara på en aspekt.
    • Kommentera noggrannhet, fullständighet, ton, struktur och så vidare.

Resonemangsmall

Använd den här strukturen:

Grade [X] ([Label]):
• Strengths: [What the response does well; which criteria it meets]
• Weaknesses: [What's missing or could be better; which criteria it falls short on]
• Rationale: [Why this grade specifically; what would change it to higher/lower]

Exempel:

Grade 3 (Acceptable):
• Strengths: Response provides technically accurate information about engine
  overheating causes and mentions checking coolant levels. Tone is appropriate.
• Weaknesses: Missing specific diagnostic steps (how to check coolant, what
  normal levels are). Doesn't address urgency or safety concerns. Lacks
  preventive maintenance advice.
• Rationale: Meets basic functional requirements (Grade 3) but lacks the depth
  and completeness expected for Grade 4. Not Grade 2 because information
  provided is accurate and helpful, just incomplete.

Välj bra exempel

Välj bra exempel för att markera i processen för förfining av kriterier med hjälp av följande riktlinjer.

Vad är ett bra exempel?

Bra exempel har följande egenskaper:

  • Representant: Typiskt för svar du stöter på.
  • Klart: Otvetydigt bra eller dåligt.
  • Lär dig något om kvalitetsstandarder.
  • Specifik: Illustrerar specifika kriterier eller gränsfall.

När du ska markera som bra exempel

Markera som bra exempel om:

  • Svar är klass 5 och exemplifierar idealisk kvalitet.
  • Svaret hanterar en komplex fråga särskilt bra.
  • Svar visar specifika positiva beteenden som du vill förstärka.
  • Du vill visa hur "uppfylla alla kriterier" ser ut.

Exempelscenario:

Test Utterance: "What were our Q3 revenue drivers?"
Response: [Detailed IR-quality response with metrics, drivers, context, and insights]
Your Grade: 5 (Exemplary)
Mark as: Good Example
Why: Perfectly demonstrates all IR criteria; serves as reference point

När du ska markera som ett dåligt exempel

Markera som dåligt exempel om:

  • Svaret är betyg 1-2 och tydligt underpresterar i förhållande till förväntningarna.
  • Svar visar vanliga fel att undvika.
  • Svaret visar specifika fallgropar (fel ton, nyckelinformation saknas, dålig struktur).
  • Du vill klargöra vad "inte acceptabelt" betyder.

Exempelscenario:

Test Utterance: "What were our Q3 revenue drivers?"
Response: [Brief, vague response with no metrics or context]
Your Grade: 2 (Weak)
Mark as: Bad Example
Why: Illustrates insufficient depth and missing critical IR elements

När feljusterade fall ska markeras

Feljusterade testfall ger ofta de mest värdefulla exemplen eftersom de avslöjar tvetydighet.

AI-betyg Mänskligt betyg Markera som exempel? Type Anledning
5 3 Yes Dåligt exempel AI är för överseende; klargöra vad som faktiskt krävs för klass 5
2 4 Yes Bra exempel AI är för strikt; visa vad som uppfyller standarder
4 5 Kanske Bra exempel Liten feljustering; hjälper till att finjustera kriterierna för betyg 5
3 3 No N/A Redan justerad; exemplet mindre slagkraftigt

Hur många exempel bör du markera?

Per iteration:

  • 3–5 bra exempel
  • 3–5 dåliga exempel
  • Totalt 6–10 exempel per iteration

Kumulativ (för alla iterationer):

  • Bedömningskriterier kan ackumulera upp till 20–30+ exempel.
  • AI använder alla exempel under förfining.
  • Fler exempel ger mer vägledning, men avkastningen minskar efter cirka 30.

Balansera bra och dåliga exempel

Underhåll balans:

  • För många bra exempel → AI blir för överseende.
  • För många dåliga exempel → AI blir för strikt.
  • Balanserade exempel → AI lär sig gränser.

Tolka justeringsmått

Så här tolkar du de justeringsmått som visas i testkörningsvyn efter varje iteration av förfining.

Förstå aggregerad justering

Justeringsprocent = (justerade betyg/Totalt graderat) × 100%

Det här måttet visar hur ofta AI och människor är överens.

Vad inriktning innebär och inte innebär

Hög anpassning indikerar:

  • Kriterier för bedömningsmatriser är tydliga och tillämpas konsekvent
  • AI tolkar kriteriet på samma sätt som människor
  • Utvärderingsstandarder är tillräckligt objektiva för automatisering

Hög justering betyder inte:

  • Alla svar är av hög kvalitet
  • Kriteriet är perfekt för din domän
  • Ingen ytterligare förfining behövs någonsin

Justering efter betygsnivå

Spåra justering separat efter betygsnivå:

Grade # Ärenden # Justerad Justering %
5 8 7 88%
4 10 9 90 %
3 7 5 71%
2 3 2 67%
1 2 2 100 %

Insikter från det här exemplet:

  • Grad 3 har den lägsta överensstämmelsen → Fokusera förfining på Grad 3-kriterier
  • Betygen 1-2 och 5 är väljusterade → mindre förfining krävs
  • Betyg 4 överensstämmer väl med → Kriterierna är tydliga

Riktningsfeljustering

Analysera om AI är för överseende eller för strikt:

Exempel:

  • 5 situationer: AI-bedömning > mänskligt betyg (AI för mild)
  • 10 fall: AI-betyg < mänskligt betyg (AI för strikt)
  • 15 fall: AI-betyg = Humanbetyg (anpassad)

Insikt: AI är systematiskt för strikt. Justera betygsdefinitioner så att de är mer tillåtande eller lägg till bra exempel på lägre betyg.

Omfattningen av feljustering

Alla feljusteringar är inte samma.

Feljustering Example Severity Åtgärder
Av med 1 AI=4, Human=5 Underårig Finjustera språket; acceptabelt för de flesta ändamål
Avvik med 2 AI=3, Human=5 Måttlig Kräver förtydligande. lägga till exempel
Av med 3+ AI=2, Human=5 Huvudsaklig Grundläggande missförstånd; omdesignvillkor

Vanliga fallgropar

Här är vanliga fallgropar i rubrikförfining och strategier för att undvika dem:

Alltför komplexa kriterier

  • Problem: Rubrik listar 10 eller mer kriterier med nyanserade distinktioner
  • Resultat: Både människor och AI kämpar med att tillämpa på ett konsekvent sätt
  • Lösning: Fokusera på 3 till 5 nyckeldimensioner; förenkla språket

Subjektiva kriterier

  • Problem: Kriterier som "låter bra" eller "känns professionella"
  • Resultat: Låg justering på grund av tolkningsskillnader
  • Lösning: Använd observerbara, mätbara kriterier

Inkonsekvent mänsklig bedömning

  • Problem: Mänsklig bedömare tillämpar olika standarder över olika testfall
  • Resultat: Förfining kan inte identifiera tydliga mönster
  • Lösning: Använd checklista för betygsättning; referera till bedömningsmall kontinuerligt; betygsätt i fokuserade sessioner

Otillräckliga exempel

  • Problem: Inga exempel eller bara ett eller två exempel
  • Resultat: AI saknar konkret vägledning
  • Lösning: Markera sex till tio exempel per iteration, balanserade bra eller dåliga exempel

Överanpassning till testfall

  • Problem: För många iterationer med samma testfall
  • Resultat: Kriterier blir hyperspecifika för träningsuppsättning
  • Lösning: Efter fyra till fem iterationer testar du med nya testfall

Strävan efter perfekt justering

  • Problem: Fortsätta iterera vid 85–90% justering
  • Resultat: Minskande avkastning; risk för överanpassning
  • Lösning: Stoppa vid 80-90%; acceptera viss subjektivitet

Ignorera AI-logik

  • Problem: Läser inte AI-resonemang i den fullständiga vyn
  • Resultat: Insikter saknas i hur kriterier tolkas
  • Lösning: Granska AI-skäl för feljusterade fall; identifiera mönster

Förvirring i test- och förfiningsläge

  • Problem: Använda kriterier för testfallsnivå när man försöker förfina
  • Resultat: Ingen AI-logik är tillgänglig; kan inte analysera feljustering
  • Lösning: Använd alltid testnivårubriker för förfining

Avancerade tips

Här är några avancerade tips för att få ut mesta möjliga av din kriteriumförfiningsprocess.

Använda flera testuppsättningar

Skapa olika testuppsättningar för olika syften:

  • Träningsuppsättning: Primär uppsättning för förfining (30–50 exempel)
  • Verifieringsuppsättning: Nya fall för att testa generalisering (10–20 fall)

Förfina på träningsuppsättningen; validera på valideringsuppsättningen.

Version dina kriterier

Använd namngivningskonvention:

  • IR Report Rubric v1 (baslinje)
  • IR Report Rubric v2 (efter iteration 1-2)
  • IR Report Rubric v3 - Final (produktionsklar)

Spåra mått över tid

Skapa en logg:

Iteration Datum Justering % Nyckeländringar Notes
v1 2026-01-15 62% Inledande riktlinjer AI för överseende med tonen
v2 2026-01-20 74% Förtydligade tonkriterier, lade till 8 exempel Förbättring i årskurs 3-4
v3 2026-01-25 83% Förfinad definition av klass 5 Tillräckligt bra för produktion

Samarbeta om klassificering

För kritiska kriterier:

  • Låt två eller tre personer bedöma var för sig.
  • Jämför betyg och diskutera skillnader
  • Skapa konsensus om standarder
  • Använda konsensusbetyg för förfining

Testa kriterier mellan agenter

En gång förfinad:

  • Testa samma kriterier för olika agenter
  • Se till att kriteriet är generaliserat, inte agentspecifikt
  • Verifiera att kriterier mäter kvalitet, inte agentbeteende

Checklista: Redo att gå över till testläget

Innan du distribuerar en rubric på testfallsnivå för återkommande tester ska du se till att:

  • Justeringen är 80% eller högre på förfiningstestuppsättningen.
  • Du testar nya testfall (används inte i förfining) med liknande justering.
  • Betygsdefinitioner är tydliga och specifika.
  • Kriteriet innehåller 10 till 20 eller fler bra eller dåliga exempel.
  • Det finns ingen systematisk bias (AI är inte konsekvent för överseende eller strikt).
  • Feljusteringsstorleken är mestadels plus eller minus ett steg (acceptabel variation).
  • Intressenterna är överens om att kriterier återspeglar organisationens standarder.
  • Dokumentation om syftet och användningen av bedömningsmatrisen finns.

Om du kontrollerar alla objekt är du redo att använda kriteriet för regelbunden testning.

Nästa steg