Metodtips och tips för förfining av kriterier

Den här artikeln innehåller metodtips och tips för att förfina kriterier i Copilot Studio Kit.

Riktlinjer för design av matriser

Här följer några viktiga riktlinjer för att utforma effektiva kriterier för AI-utvärdering.

Vara domänspecifik

Generiska kriterier ger dålig justering. Skriv för ditt specifika användningsfall.

För allmänt:

What good looks like: A helpful, accurate response
Grade 5: Excellent response
Grade 1: Bad response

Domänspecifik:

What good looks like: A professional investor relations response that includes
relevant financial metrics, explains business drivers, maintains formal tone,
and provides forward-looking context appropriate for shareholder communications.

Grade 5 (Exemplary): Includes all key IR elements (KPIs, performance drivers,
strategic context, forward-looking insights), maintains polished professional
tone, flows logically, and requires no improvements.

Använda observerbara, mätbara kriterier

Undvik subjektiva termer som olika utvärderare kan tolka på olika sätt.

Ämnesämne:

Grade 5: Response feels right and sounds professional
Grade 3: Response is okay but could be better

Observerbar:

Grade 5: Response includes specific metrics with context, explains causal
relationships, uses industry-standard terminology, follows structured format
(intro-body-conclusion), and avoids jargon.

Grade 3: Response includes basic metrics but lacks context, provides minimal
explanation of drivers, uses acceptable but generic language, and has some
organizational gaps.

Skapa tydliga betygsskillnader

Varje betygsnivå bör ha tydliga, särskiljbara egenskaper.

Teknik: Använd progressiv specificitet

Betyg 5: Alla kriterier, plus polering och inga luckor
Betyg 4: Alla kriterier, plus mindre luckor eller mindre polering
Betyg 3: Grundläggande kriterier uppfylldes, men med märkbara luckor
Betyg 2: Nyckelkriterier saknas och har betydande problem
Betyg 1: Uppfyller inte förväntningarna

Exempel:

Grade 5: Includes metrics, drivers, context, and forward insights; professional
         tone; logical flow; investor-ready polish
Grade 4: Includes metrics, drivers, and context; mostly professional tone;
         generally logical flow; minor polish needed
Grade 3: Includes metrics and basic context; acceptable tone but generic;
         functional but lacks depth
Grade 2: Missing key metrics or context; inconsistent tone; gaps in logic
Grade 1: Missing most expected elements; unprofessional tone; confusing structure

Fokusera på flera kvalitetsdimensioner

Överväg alla relevanta aspekter av kvalitet:

Dimension	Frågor att ta itu med
Noggrannhet	Är informationen korrekt och faktabaserad?
Fullständighet	Ingår alla nödvändiga element?
Relevance	Adresserar den den specifika frågan?
Groundedness	Stöds det av källmaterial?
Ton	Är formatet lämpligt för målgruppen?
Klarhet	Är det lätt att förstå?
Struktur	Är det välorganiserat?
Kontext	Ger den nödvändig bakgrund?
Professionalism	Uppfyller den standarder för affärskommunikation?

Du behöver inte behandla alla dimensioner i varje rubrik. Fokusera på det som är viktigt för ditt användningsfall.

Led med det som är viktigast

Placera de viktigaste kriterierna först i dina betygsdefinitioner.

Bra prioritering:

Grade 5:
• [Most critical] Accuracy: All facts correct and grounded in source material
• [Very important] Completeness: Includes all required metrics and context
• [Important] Tone: Professional and appropriate for IR communications
• [Nice to have] Polish: Well-structured with logical flow

Den här metoden hjälper både mänskliga utvärderare och AI-utvärderare att fokusera på det som verkligen är viktigt.

Undvik redundans mellan olika betyg

Upprepa inte samma språk för varje betygsnivå.

Redundant:

Grade 5: Professional tone, includes metrics, provides context
Grade 4: Professional tone, includes metrics, provides context
Grade 3: Professional tone, includes metrics, provides context

Progressiv:

Grade 5: Polished professional tone, comprehensive metrics with deep context
Grade 4: Professional tone, key metrics with adequate context
Grade 3: Acceptable tone, basic metrics with minimal context

Ta med grunderna för standarder

Förklara varför vissa kriterier är viktiga, särskilt för icke-uppenbara standarder.

Exempel:

Tone should be professional and consistent with corporate IR voice because
investor communications must maintain credibility and trust. Casual or
marketing-like language undermines confidence in financial reporting and
may violate regulatory expectations.

Den här förklaringen hjälper både AI-utvärderare och mänskliga utvärderare att förstå "varför" bakom standarder.

Använd dessa riktlinjer för att välja antalet testfall för effektiv förfining av kriterier.

Minsta livskraftiga uppsättning

Minst 15–20 testfall för inledande förfining
Inkludera tillräckligt med variation för att täcka olika frågetyper och svarsmönster
Upprätthålla en balans mellan arbete och täckning

Rekommenderad uppsättning

30–50 testfall för robust förfining
God statistisk representation av justering
Omfattar extremfall och olika fall

Storskalig uppsättning

50–100+ testfall för omfattande förfining
Bäst för kritiska användningsfall som kräver hög konfidens
Ger starka justeringsmått

Kvalitet över kvantitet

Viktigare än talet:

Variation: Olika typer av frågor och svar
Representant: Återspeglar verklig användning
Specialfall: Inkluderar utmanande eller tvetydiga scenarier
Konsekvent: Samma testuppsättning som används mellan iterationer

Tips/Råd

Börja med 20–30 testfall. Lägg till mer om du ser hög varians i justeringen eller om testfallen är för homogena.

När man ska iterera kontra när man ska sluta

Använd dessa riktlinjer för att bestämma när du ska fortsätta iterera på din kurs och när du ska stoppa och övergå till testläge.

Fortsätt iterera

Fortsätt iterera om:

Justeringen är under 75%.
Det finns tydliga mönster för feljustering.
AI misstolkar konsekvent specifika kriterier.
Du har identifierat nya exempel som kan vara till hjälp.
Justeringen förbättrades avsevärt under den senaste iterationen (momentum).

Överväg att stoppa

Överväg att stoppa om:

Justeringen är konsekvent 80–90 % och över.
Återstående feljustering visas slumpmässigt (inga mönster).
De senaste två eller tre iterationerna visar minimal förbättring.
Feljusteringen är liten (med en punkts avvikelse) och acceptabel.
Ytterligare iterationer gör att kriteriet överanpassas för att testa fall.

Justering	Rekommendation
90%+	Utmärkt – stoppa och övergå till testläge
80-89%	Mycket bra – en eller två iterationer till och stoppa sedan
75-79%	Bra – fortsätt med två eller tre iterationer till
60-74%	Fair – fortsätt att förfina; överväga omdesign av kriterier om det inte förbättras
< 60%	Poor – större förfining krävs eller omformning av kriterier

Minskande avkastning

Spåra justeringsförbättringar mellan iterationer:

Iteration 1 → 2: +15% förbättring → Fortsätt
Iteration 2 → 3: +8% förbättring → Fortsätt
Iteration 3 → 4: +2% förbättring → Överväg att stoppa snart
Iteration 4 → 5: +1% förbättring → Stoppa

Undvik bias i mänsklig gradering

Här är några vanliga källor till bias i mänsklig klassificering under förfining av bedömningsmallar och strategier för att minimera dem.

Bias-problemet

Mänskliga betyg kan påverkas av:

AI-betyg: Se AI:s utvärdering innan du skapar en egen.
Godkännandeförväntningar: Att vilja att svar godkänns snarare än att betygsättas ärligt.
Bekräftelsefördomar: Letar efter bevis som stöder ditt första intryck.
Förankring: Första svaret som du betygsätter påverkar efterföljande betyg.

Strategier för att minimera bias

Använd dessa strategier för att minska bias i din bedömningsprocess:

Betygsätta i standardförfiningsvyn (AI dold).
Bilda dig en egen åsikt innan du ser AI-utvärdering.
Växla endast till Fullständig vy när du har slutfört dina betyg.

Referera till kriteriet hela tiden

Håll kriteriet öppet under klassificeringen.
Matcha svaret tydligt mot kriterier.
Förlita dig inte på magkänsla ensam.

Betygsätta i batchar

Betyg 5-10 testfall åt gången.
Ta pauser mellan batchar.
Upprätthålla konsekventa standarder mellan sessioner.

Betyg före märkningsexempel

Första passet: Tilldela betyg och resonemang.
Andra passet: Markera bra eller dåliga exempel.

Den här metoden förhindrar att exempelval påverkar betyg.

Ignorera resultat för pass eller fail

Kom ihåg att målet är justering, inte att skicka poäng.
Betyg ärligt baserat på kvalitet.
Ett svar av låg kvalitet bör få ett lågt betyg även om du önskar att det var bättre

Kalibrera med en partner

Om möjligt:

Låt en kollega betygsätta en delmängd av testfallen.
Jämför dina betyg med deras.
Diskutera skillnader och anpassa dig efter standarder.

Den här metoden förbättrar samstämmigheten.

Skriv effektivt resonemang

Ditt mänskliga resonemang är avgörande för förfining av riktlinjer. AI:n analyserar dina förklaringar för att förstå vad som är viktigt.

Vad kännetecknar ett bra resonemang?

Specifik och detaljerad:

Grade 4 (Strong): Response includes accurate automotive diagnostic information
and identifies the likely cause (worn brake pads). Provides clear next steps
(inspection and replacement). Tone is professional and reassuring. However,
it lacks specific cost estimates and timeline, which would make it exemplary
for our customer service standards.

Vaga och generiska:

Grade 4: Pretty good response. Has most of what's needed.

Element i ett effektivt resonemang

Kriterier för referensriterium
- "Innehåller obligatoriska mått" → Vilka mått?
- "Professionell ton" → Vad gör det professionellt?
- "Saknar kontext" → Vilken kontext saknas?
Förklara ditt betygsbeslut
- Varför detta betyg och inte högre eller lägre?
- Vad skulle göra det bättre (för betyg < 5)?
- Vad hindrar det från att vara sämre (för betyg > 1)?
Var specifik
- Ange specifika delar av svaret.
- Identifiera specifika element som saknas.
- Peka på specifika kvalitetsproblem.
Hantera flera dimensioner
- Fokusera inte bara på en aspekt.
- Kommentera noggrannhet, fullständighet, ton, struktur och så vidare.

Resonemangsmall

Använd den här strukturen:

Grade [X] ([Label]):
• Strengths: [What the response does well; which criteria it meets]
• Weaknesses: [What's missing or could be better; which criteria it falls short on]
• Rationale: [Why this grade specifically; what would change it to higher/lower]

Exempel:

Grade 3 (Acceptable):
• Strengths: Response provides technically accurate information about engine
  overheating causes and mentions checking coolant levels. Tone is appropriate.
• Weaknesses: Missing specific diagnostic steps (how to check coolant, what
  normal levels are). Doesn't address urgency or safety concerns. Lacks
  preventive maintenance advice.
• Rationale: Meets basic functional requirements (Grade 3) but lacks the depth
  and completeness expected for Grade 4. Not Grade 2 because information
  provided is accurate and helpful, just incomplete.

Välj bra exempel

Välj bra exempel för att markera i processen för förfining av kriterier med hjälp av följande riktlinjer.

Vad är ett bra exempel?

Bra exempel har följande egenskaper:

Representant: Typiskt för svar du stöter på.
Klart: Otvetydigt bra eller dåligt.
Lär dig något om kvalitetsstandarder.
Specifik: Illustrerar specifika kriterier eller gränsfall.

När du ska markera som bra exempel

Markera som bra exempel om:

Svar är klass 5 och exemplifierar idealisk kvalitet.
Svaret hanterar en komplex fråga särskilt bra.
Svar visar specifika positiva beteenden som du vill förstärka.
Du vill visa hur "uppfylla alla kriterier" ser ut.

Exempelscenario:

Test Utterance: "What were our Q3 revenue drivers?"
Response: [Detailed IR-quality response with metrics, drivers, context, and insights]
Your Grade: 5 (Exemplary)
Mark as: Good Example
Why: Perfectly demonstrates all IR criteria; serves as reference point

När du ska markera som ett dåligt exempel

Markera som dåligt exempel om:

Svaret är betyg 1-2 och tydligt underpresterar i förhållande till förväntningarna.
Svar visar vanliga fel att undvika.
Svaret visar specifika fallgropar (fel ton, nyckelinformation saknas, dålig struktur).
Du vill klargöra vad "inte acceptabelt" betyder.

Exempelscenario:

Test Utterance: "What were our Q3 revenue drivers?"
Response: [Brief, vague response with no metrics or context]
Your Grade: 2 (Weak)
Mark as: Bad Example
Why: Illustrates insufficient depth and missing critical IR elements

När feljusterade fall ska markeras

Feljusterade testfall ger ofta de mest värdefulla exemplen eftersom de avslöjar tvetydighet.

AI-betyg	Mänskligt betyg	Markera som exempel?	Type	Anledning
5	3	Yes	Dåligt exempel	AI är för överseende; klargöra vad som faktiskt krävs för klass 5
2	4	Yes	Bra exempel	AI är för strikt; visa vad som uppfyller standarder
4	5	Kanske	Bra exempel	Liten feljustering; hjälper till att finjustera kriterierna för betyg 5
3	3	No	N/A	Redan justerad; exemplet mindre slagkraftigt

Hur många exempel bör du markera?

Per iteration:

3–5 bra exempel
3–5 dåliga exempel
Totalt 6–10 exempel per iteration

Kumulativ (för alla iterationer):

Bedömningskriterier kan ackumulera upp till 20–30+ exempel.
AI använder alla exempel under förfining.
Fler exempel ger mer vägledning, men avkastningen minskar efter cirka 30.

Balansera bra och dåliga exempel

Underhåll balans:

För många bra exempel → AI blir för överseende.
För många dåliga exempel → AI blir för strikt.
Balanserade exempel → AI lär sig gränser.

Tolka justeringsmått

Så här tolkar du de justeringsmått som visas i testkörningsvyn efter varje iteration av förfining.

Förstå aggregerad justering

Justeringsprocent = (justerade betyg/Totalt graderat) × 100%

Det här måttet visar hur ofta AI och människor är överens.

Vad inriktning innebär och inte innebär

Hög anpassning indikerar:

Kriterier för bedömningsmatriser är tydliga och tillämpas konsekvent
AI tolkar kriteriet på samma sätt som människor
Utvärderingsstandarder är tillräckligt objektiva för automatisering

Hög justering betyder inte:

Alla svar är av hög kvalitet
Kriteriet är perfekt för din domän
Ingen ytterligare förfining behövs någonsin

Justering efter betygsnivå

Spåra justering separat efter betygsnivå:

Grade	# Ärenden	# Justerad	Justering %
5	8	7	88%
4	10	9	90 %
3	7	5	71%
2	3	2	67%
1	2	2	100 %

Insikter från det här exemplet:

Grad 3 har den lägsta överensstämmelsen → Fokusera förfining på Grad 3-kriterier
Betygen 1-2 och 5 är väljusterade → mindre förfining krävs
Betyg 4 överensstämmer väl med → Kriterierna är tydliga

Riktningsfeljustering

Analysera om AI är för överseende eller för strikt:

Exempel:

5 situationer: AI-bedömning > mänskligt betyg (AI för mild)
10 fall: AI-betyg < mänskligt betyg (AI för strikt)
15 fall: AI-betyg = Humanbetyg (anpassad)

Insikt: AI är systematiskt för strikt. Justera betygsdefinitioner så att de är mer tillåtande eller lägg till bra exempel på lägre betyg.

Omfattningen av feljustering

Alla feljusteringar är inte samma.

Feljustering	Example	Severity	Åtgärder
Av med 1	AI=4, Human=5	Underårig	Finjustera språket; acceptabelt för de flesta ändamål
Avvik med 2	AI=3, Human=5	Måttlig	Kräver förtydligande. lägga till exempel
Av med 3+	AI=2, Human=5	Huvudsaklig	Grundläggande missförstånd; omdesignvillkor

Vanliga fallgropar

Här är vanliga fallgropar i rubrikförfining och strategier för att undvika dem:

Alltför komplexa kriterier

Problem: Rubrik listar 10 eller mer kriterier med nyanserade distinktioner
Resultat: Både människor och AI kämpar med att tillämpa på ett konsekvent sätt
Lösning: Fokusera på 3 till 5 nyckeldimensioner; förenkla språket

Subjektiva kriterier

Problem: Kriterier som "låter bra" eller "känns professionella"
Resultat: Låg justering på grund av tolkningsskillnader
Lösning: Använd observerbara, mätbara kriterier

Inkonsekvent mänsklig bedömning

Problem: Mänsklig bedömare tillämpar olika standarder över olika testfall
Resultat: Förfining kan inte identifiera tydliga mönster
Lösning: Använd checklista för betygsättning; referera till bedömningsmall kontinuerligt; betygsätt i fokuserade sessioner

Otillräckliga exempel

Problem: Inga exempel eller bara ett eller två exempel
Resultat: AI saknar konkret vägledning
Lösning: Markera sex till tio exempel per iteration, balanserade bra eller dåliga exempel

Överanpassning till testfall

Problem: För många iterationer med samma testfall
Resultat: Kriterier blir hyperspecifika för träningsuppsättning
Lösning: Efter fyra till fem iterationer testar du med nya testfall

Strävan efter perfekt justering

Problem: Fortsätta iterera vid 85–90% justering
Resultat: Minskande avkastning; risk för överanpassning
Lösning: Stoppa vid 80-90%; acceptera viss subjektivitet

Ignorera AI-logik

Problem: Läser inte AI-resonemang i den fullständiga vyn
Resultat: Insikter saknas i hur kriterier tolkas
Lösning: Granska AI-skäl för feljusterade fall; identifiera mönster

Problem: Använda kriterier för testfallsnivå när man försöker förfina
Resultat: Ingen AI-logik är tillgänglig; kan inte analysera feljustering
Lösning: Använd alltid testnivårubriker för förfining

Avancerade tips

Här är några avancerade tips för att få ut mesta möjliga av din kriteriumförfiningsprocess.

Använda flera testuppsättningar

Skapa olika testuppsättningar för olika syften:

Träningsuppsättning: Primär uppsättning för förfining (30–50 exempel)
Verifieringsuppsättning: Nya fall för att testa generalisering (10–20 fall)

Förfina på träningsuppsättningen; validera på valideringsuppsättningen.

Version dina kriterier

Använd namngivningskonvention:

IR Report Rubric v1 (baslinje)
IR Report Rubric v2 (efter iteration 1-2)
IR Report Rubric v3 - Final (produktionsklar)

Spåra mått över tid

Skapa en logg:

Iteration	Datum	Justering %	Nyckeländringar	Notes
v1	2026-01-15	62%	Inledande riktlinjer	AI för överseende med tonen
v2	2026-01-20	74%	Förtydligade tonkriterier, lade till 8 exempel	Förbättring i årskurs 3-4
v3	2026-01-25	83%	Förfinad definition av klass 5	Tillräckligt bra för produktion

Samarbeta om klassificering

För kritiska kriterier:

Låt två eller tre personer bedöma var för sig.
Jämför betyg och diskutera skillnader
Skapa konsensus om standarder
Använda konsensusbetyg för förfining

Testa kriterier mellan agenter

En gång förfinad:

Testa samma kriterier för olika agenter
Se till att kriteriet är generaliserat, inte agentspecifikt
Verifiera att kriterier mäter kvalitet, inte agentbeteende

Checklista: Redo att gå över till testläget

Innan du distribuerar en rubric på testfallsnivå för återkommande tester ska du se till att:

Justeringen är 80% eller högre på förfiningstestuppsättningen.
Du testar nya testfall (används inte i förfining) med liknande justering.
Betygsdefinitioner är tydliga och specifika.
Kriteriet innehåller 10 till 20 eller fler bra eller dåliga exempel.
Det finns ingen systematisk bias (AI är inte konsekvent för överseende eller strikt).
Feljusteringsstorleken är mestadels plus eller minus ett steg (acceptabel variation).
Intressenterna är överens om att kriterier återspeglar organisationens standarder.
Dokumentation om syftet och användningen av bedömningsmatrisen finns.

Om du kontrollerar alla objekt är du redo att använda kriteriet för regelbunden testning.

Nästa steg

Referensguide för kriterier

Feedback

Var den här sidan till hjälp?

Last updated on 2026-05-01

Riktlinjer för design av matriser

Vara domänspecifik

Använda observerbara, mätbara kriterier

Skapa tydliga betygsskillnader

Fokusera på flera kvalitetsdimensioner

Led med det som är viktigast

Undvik redundans mellan olika betyg

Ta med grunderna för standarder

Antal testfall som ska användas för förfining

Minsta livskraftiga uppsättning

Rekommenderad uppsättning

Storskalig uppsättning

Kvalitet över kvantitet

När man ska iterera kontra när man ska sluta

Fortsätt iterera

Överväg att stoppa

Förfiningsstoppkriterier

Minskande avkastning

Undvik bias i mänsklig gradering

Bias-problemet

Strategier för att minimera bias

Använd standardförfiningsvyn först

Referera till kriteriet hela tiden

Betygsätta i batchar

Betyg före märkningsexempel

Ignorera resultat för pass eller fail

Kalibrera med en partner

Skriv effektivt resonemang

Vad kännetecknar ett bra resonemang?

Element i ett effektivt resonemang

Resonemangsmall

Välj bra exempel

Vad är ett bra exempel?

När du ska markera som bra exempel

När du ska markera som ett dåligt exempel

När feljusterade fall ska markeras

Hur många exempel bör du markera?

Balansera bra och dåliga exempel

Tolka justeringsmått

Förstå aggregerad justering

Vad inriktning innebär och inte innebär

Justering efter betygsnivå

Riktningsfeljustering

Omfattningen av feljustering

Vanliga fallgropar

Alltför komplexa kriterier

Subjektiva kriterier

Inkonsekvent mänsklig bedömning

Otillräckliga exempel

Överanpassning till testfall

Strävan efter perfekt justering

Ignorera AI-logik

Förvirring i test- och förfiningsläge

Avancerade tips

Använda flera testuppsättningar

Version dina kriterier

Spåra mått över tid

Samarbeta om klassificering

Testa kriterier mellan agenter

Checklista: Redo att gå över till testläget

Nästa steg

Feedback

Ytterligare resurser