Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Den här artikeln innehåller metodtips och tips för att förfina kriterier i Copilot Studio Kit.
Riktlinjer för design av matriser
Här följer några viktiga riktlinjer för att utforma effektiva kriterier för AI-utvärdering.
Vara domänspecifik
Generiska kriterier ger dålig justering. Skriv för ditt specifika användningsfall.
För allmänt:
What good looks like: A helpful, accurate response
Grade 5: Excellent response
Grade 1: Bad response
Domänspecifik:
What good looks like: A professional investor relations response that includes
relevant financial metrics, explains business drivers, maintains formal tone,
and provides forward-looking context appropriate for shareholder communications.
Grade 5 (Exemplary): Includes all key IR elements (KPIs, performance drivers,
strategic context, forward-looking insights), maintains polished professional
tone, flows logically, and requires no improvements.
Använda observerbara, mätbara kriterier
Undvik subjektiva termer som olika utvärderare kan tolka på olika sätt.
Ämnesämne:
Grade 5: Response feels right and sounds professional
Grade 3: Response is okay but could be better
Observerbar:
Grade 5: Response includes specific metrics with context, explains causal
relationships, uses industry-standard terminology, follows structured format
(intro-body-conclusion), and avoids jargon.
Grade 3: Response includes basic metrics but lacks context, provides minimal
explanation of drivers, uses acceptable but generic language, and has some
organizational gaps.
Skapa tydliga betygsskillnader
Varje betygsnivå bör ha tydliga, särskiljbara egenskaper.
Teknik: Använd progressiv specificitet
- Betyg 5: Alla kriterier, plus polering och inga luckor
- Betyg 4: Alla kriterier, plus mindre luckor eller mindre polering
- Betyg 3: Grundläggande kriterier uppfylldes, men med märkbara luckor
- Betyg 2: Nyckelkriterier saknas och har betydande problem
- Betyg 1: Uppfyller inte förväntningarna
Exempel:
Grade 5: Includes metrics, drivers, context, and forward insights; professional
tone; logical flow; investor-ready polish
Grade 4: Includes metrics, drivers, and context; mostly professional tone;
generally logical flow; minor polish needed
Grade 3: Includes metrics and basic context; acceptable tone but generic;
functional but lacks depth
Grade 2: Missing key metrics or context; inconsistent tone; gaps in logic
Grade 1: Missing most expected elements; unprofessional tone; confusing structure
Fokusera på flera kvalitetsdimensioner
Överväg alla relevanta aspekter av kvalitet:
| Dimension | Frågor att ta itu med |
|---|---|
| Noggrannhet | Är informationen korrekt och faktabaserad? |
| Fullständighet | Ingår alla nödvändiga element? |
| Relevance | Adresserar den den specifika frågan? |
| Groundedness | Stöds det av källmaterial? |
| Ton | Är formatet lämpligt för målgruppen? |
| Klarhet | Är det lätt att förstå? |
| Struktur | Är det välorganiserat? |
| Kontext | Ger den nödvändig bakgrund? |
| Professionalism | Uppfyller den standarder för affärskommunikation? |
Du behöver inte behandla alla dimensioner i varje rubrik. Fokusera på det som är viktigt för ditt användningsfall.
Led med det som är viktigast
Placera de viktigaste kriterierna först i dina betygsdefinitioner.
Bra prioritering:
Grade 5:
• [Most critical] Accuracy: All facts correct and grounded in source material
• [Very important] Completeness: Includes all required metrics and context
• [Important] Tone: Professional and appropriate for IR communications
• [Nice to have] Polish: Well-structured with logical flow
Den här metoden hjälper både mänskliga utvärderare och AI-utvärderare att fokusera på det som verkligen är viktigt.
Undvik redundans mellan olika betyg
Upprepa inte samma språk för varje betygsnivå.
Redundant:
Grade 5: Professional tone, includes metrics, provides context
Grade 4: Professional tone, includes metrics, provides context
Grade 3: Professional tone, includes metrics, provides context
Progressiv:
Grade 5: Polished professional tone, comprehensive metrics with deep context
Grade 4: Professional tone, key metrics with adequate context
Grade 3: Acceptable tone, basic metrics with minimal context
Ta med grunderna för standarder
Förklara varför vissa kriterier är viktiga, särskilt för icke-uppenbara standarder.
Exempel:
Tone should be professional and consistent with corporate IR voice because
investor communications must maintain credibility and trust. Casual or
marketing-like language undermines confidence in financial reporting and
may violate regulatory expectations.
Den här förklaringen hjälper både AI-utvärderare och mänskliga utvärderare att förstå "varför" bakom standarder.
Antal testfall som ska användas för förfining
Använd dessa riktlinjer för att välja antalet testfall för effektiv förfining av kriterier.
Minsta livskraftiga uppsättning
- Minst 15–20 testfall för inledande förfining
- Inkludera tillräckligt med variation för att täcka olika frågetyper och svarsmönster
- Upprätthålla en balans mellan arbete och täckning
Rekommenderad uppsättning
- 30–50 testfall för robust förfining
- God statistisk representation av justering
- Omfattar extremfall och olika fall
Storskalig uppsättning
- 50–100+ testfall för omfattande förfining
- Bäst för kritiska användningsfall som kräver hög konfidens
- Ger starka justeringsmått
Kvalitet över kvantitet
Viktigare än talet:
- Variation: Olika typer av frågor och svar
- Representant: Återspeglar verklig användning
- Specialfall: Inkluderar utmanande eller tvetydiga scenarier
- Konsekvent: Samma testuppsättning som används mellan iterationer
Tips/Råd
Börja med 20–30 testfall. Lägg till mer om du ser hög varians i justeringen eller om testfallen är för homogena.
När man ska iterera kontra när man ska sluta
Använd dessa riktlinjer för att bestämma när du ska fortsätta iterera på din kurs och när du ska stoppa och övergå till testläge.
Fortsätt iterera
Fortsätt iterera om:
- Justeringen är under 75%.
- Det finns tydliga mönster för feljustering.
- AI misstolkar konsekvent specifika kriterier.
- Du har identifierat nya exempel som kan vara till hjälp.
- Justeringen förbättrades avsevärt under den senaste iterationen (momentum).
Överväg att stoppa
Överväg att stoppa om:
- Justeringen är konsekvent 80–90 % och över.
- Återstående feljustering visas slumpmässigt (inga mönster).
- De senaste två eller tre iterationerna visar minimal förbättring.
- Feljusteringen är liten (med en punkts avvikelse) och acceptabel.
- Ytterligare iterationer gör att kriteriet överanpassas för att testa fall.
Förfiningsstoppkriterier
| Justering | Rekommendation |
|---|---|
| 90%+ | Utmärkt – stoppa och övergå till testläge |
| 80-89% | Mycket bra – en eller två iterationer till och stoppa sedan |
| 75-79% | Bra – fortsätt med två eller tre iterationer till |
| 60-74% | Fair – fortsätt att förfina; överväga omdesign av kriterier om det inte förbättras |
| < 60% | Poor – större förfining krävs eller omformning av kriterier |
Minskande avkastning
Spåra justeringsförbättringar mellan iterationer:
- Iteration 1 → 2: +15% förbättring → Fortsätt
- Iteration 2 → 3: +8% förbättring → Fortsätt
- Iteration 3 → 4: +2% förbättring → Överväg att stoppa snart
- Iteration 4 → 5: +1% förbättring → Stoppa
Undvik bias i mänsklig gradering
Här är några vanliga källor till bias i mänsklig klassificering under förfining av bedömningsmallar och strategier för att minimera dem.
Bias-problemet
Mänskliga betyg kan påverkas av:
- AI-betyg: Se AI:s utvärdering innan du skapar en egen.
- Godkännandeförväntningar: Att vilja att svar godkänns snarare än att betygsättas ärligt.
- Bekräftelsefördomar: Letar efter bevis som stöder ditt första intryck.
- Förankring: Första svaret som du betygsätter påverkar efterföljande betyg.
Strategier för att minimera bias
Använd dessa strategier för att minska bias i din bedömningsprocess:
Använd standardförfiningsvyn först
- Betygsätta i standardförfiningsvyn (AI dold).
- Bilda dig en egen åsikt innan du ser AI-utvärdering.
- Växla endast till Fullständig vy när du har slutfört dina betyg.
Referera till kriteriet hela tiden
- Håll kriteriet öppet under klassificeringen.
- Matcha svaret tydligt mot kriterier.
- Förlita dig inte på magkänsla ensam.
Betygsätta i batchar
- Betyg 5-10 testfall åt gången.
- Ta pauser mellan batchar.
- Upprätthålla konsekventa standarder mellan sessioner.
Betyg före märkningsexempel
- Första passet: Tilldela betyg och resonemang.
- Andra passet: Markera bra eller dåliga exempel.
Den här metoden förhindrar att exempelval påverkar betyg.
Ignorera resultat för pass eller fail
- Kom ihåg att målet är justering, inte att skicka poäng.
- Betyg ärligt baserat på kvalitet.
- Ett svar av låg kvalitet bör få ett lågt betyg även om du önskar att det var bättre
Kalibrera med en partner
Om möjligt:
- Låt en kollega betygsätta en delmängd av testfallen.
- Jämför dina betyg med deras.
- Diskutera skillnader och anpassa dig efter standarder.
Den här metoden förbättrar samstämmigheten.
Skriv effektivt resonemang
Ditt mänskliga resonemang är avgörande för förfining av riktlinjer. AI:n analyserar dina förklaringar för att förstå vad som är viktigt.
Vad kännetecknar ett bra resonemang?
Specifik och detaljerad:
Grade 4 (Strong): Response includes accurate automotive diagnostic information
and identifies the likely cause (worn brake pads). Provides clear next steps
(inspection and replacement). Tone is professional and reassuring. However,
it lacks specific cost estimates and timeline, which would make it exemplary
for our customer service standards.
Vaga och generiska:
Grade 4: Pretty good response. Has most of what's needed.
Element i ett effektivt resonemang
Kriterier för referensriterium
- "Innehåller obligatoriska mått" → Vilka mått?
- "Professionell ton" → Vad gör det professionellt?
- "Saknar kontext" → Vilken kontext saknas?
Förklara ditt betygsbeslut
- Varför detta betyg och inte högre eller lägre?
- Vad skulle göra det bättre (för betyg < 5)?
- Vad hindrar det från att vara sämre (för betyg > 1)?
Var specifik
- Ange specifika delar av svaret.
- Identifiera specifika element som saknas.
- Peka på specifika kvalitetsproblem.
Hantera flera dimensioner
- Fokusera inte bara på en aspekt.
- Kommentera noggrannhet, fullständighet, ton, struktur och så vidare.
Resonemangsmall
Använd den här strukturen:
Grade [X] ([Label]):
• Strengths: [What the response does well; which criteria it meets]
• Weaknesses: [What's missing or could be better; which criteria it falls short on]
• Rationale: [Why this grade specifically; what would change it to higher/lower]
Exempel:
Grade 3 (Acceptable):
• Strengths: Response provides technically accurate information about engine
overheating causes and mentions checking coolant levels. Tone is appropriate.
• Weaknesses: Missing specific diagnostic steps (how to check coolant, what
normal levels are). Doesn't address urgency or safety concerns. Lacks
preventive maintenance advice.
• Rationale: Meets basic functional requirements (Grade 3) but lacks the depth
and completeness expected for Grade 4. Not Grade 2 because information
provided is accurate and helpful, just incomplete.
Välj bra exempel
Välj bra exempel för att markera i processen för förfining av kriterier med hjälp av följande riktlinjer.
Vad är ett bra exempel?
Bra exempel har följande egenskaper:
- Representant: Typiskt för svar du stöter på.
- Klart: Otvetydigt bra eller dåligt.
- Lär dig något om kvalitetsstandarder.
- Specifik: Illustrerar specifika kriterier eller gränsfall.
När du ska markera som bra exempel
Markera som bra exempel om:
- Svar är klass 5 och exemplifierar idealisk kvalitet.
- Svaret hanterar en komplex fråga särskilt bra.
- Svar visar specifika positiva beteenden som du vill förstärka.
- Du vill visa hur "uppfylla alla kriterier" ser ut.
Exempelscenario:
Test Utterance: "What were our Q3 revenue drivers?"
Response: [Detailed IR-quality response with metrics, drivers, context, and insights]
Your Grade: 5 (Exemplary)
Mark as: Good Example
Why: Perfectly demonstrates all IR criteria; serves as reference point
När du ska markera som ett dåligt exempel
Markera som dåligt exempel om:
- Svaret är betyg 1-2 och tydligt underpresterar i förhållande till förväntningarna.
- Svar visar vanliga fel att undvika.
- Svaret visar specifika fallgropar (fel ton, nyckelinformation saknas, dålig struktur).
- Du vill klargöra vad "inte acceptabelt" betyder.
Exempelscenario:
Test Utterance: "What were our Q3 revenue drivers?"
Response: [Brief, vague response with no metrics or context]
Your Grade: 2 (Weak)
Mark as: Bad Example
Why: Illustrates insufficient depth and missing critical IR elements
När feljusterade fall ska markeras
Feljusterade testfall ger ofta de mest värdefulla exemplen eftersom de avslöjar tvetydighet.
| AI-betyg | Mänskligt betyg | Markera som exempel? | Type | Anledning |
|---|---|---|---|---|
| 5 | 3 | Yes | Dåligt exempel | AI är för överseende; klargöra vad som faktiskt krävs för klass 5 |
| 2 | 4 | Yes | Bra exempel | AI är för strikt; visa vad som uppfyller standarder |
| 4 | 5 | Kanske | Bra exempel | Liten feljustering; hjälper till att finjustera kriterierna för betyg 5 |
| 3 | 3 | No | N/A | Redan justerad; exemplet mindre slagkraftigt |
Hur många exempel bör du markera?
Per iteration:
- 3–5 bra exempel
- 3–5 dåliga exempel
- Totalt 6–10 exempel per iteration
Kumulativ (för alla iterationer):
- Bedömningskriterier kan ackumulera upp till 20–30+ exempel.
- AI använder alla exempel under förfining.
- Fler exempel ger mer vägledning, men avkastningen minskar efter cirka 30.
Balansera bra och dåliga exempel
Underhåll balans:
- För många bra exempel → AI blir för överseende.
- För många dåliga exempel → AI blir för strikt.
- Balanserade exempel → AI lär sig gränser.
Tolka justeringsmått
Så här tolkar du de justeringsmått som visas i testkörningsvyn efter varje iteration av förfining.
Förstå aggregerad justering
Justeringsprocent = (justerade betyg/Totalt graderat) × 100%
Det här måttet visar hur ofta AI och människor är överens.
Vad inriktning innebär och inte innebär
Hög anpassning indikerar:
- Kriterier för bedömningsmatriser är tydliga och tillämpas konsekvent
- AI tolkar kriteriet på samma sätt som människor
- Utvärderingsstandarder är tillräckligt objektiva för automatisering
Hög justering betyder inte:
- Alla svar är av hög kvalitet
- Kriteriet är perfekt för din domän
- Ingen ytterligare förfining behövs någonsin
Justering efter betygsnivå
Spåra justering separat efter betygsnivå:
| Grade | # Ärenden | # Justerad | Justering % |
|---|---|---|---|
| 5 | 8 | 7 | 88% |
| 4 | 10 | 9 | 90 % |
| 3 | 7 | 5 | 71% |
| 2 | 3 | 2 | 67% |
| 1 | 2 | 2 | 100 % |
Insikter från det här exemplet:
- Grad 3 har den lägsta överensstämmelsen → Fokusera förfining på Grad 3-kriterier
- Betygen 1-2 och 5 är väljusterade → mindre förfining krävs
- Betyg 4 överensstämmer väl med → Kriterierna är tydliga
Riktningsfeljustering
Analysera om AI är för överseende eller för strikt:
Exempel:
- 5 situationer: AI-bedömning > mänskligt betyg (AI för mild)
- 10 fall: AI-betyg < mänskligt betyg (AI för strikt)
- 15 fall: AI-betyg = Humanbetyg (anpassad)
Insikt: AI är systematiskt för strikt. Justera betygsdefinitioner så att de är mer tillåtande eller lägg till bra exempel på lägre betyg.
Omfattningen av feljustering
Alla feljusteringar är inte samma.
| Feljustering | Example | Severity | Åtgärder |
|---|---|---|---|
| Av med 1 | AI=4, Human=5 | Underårig | Finjustera språket; acceptabelt för de flesta ändamål |
| Avvik med 2 | AI=3, Human=5 | Måttlig | Kräver förtydligande. lägga till exempel |
| Av med 3+ | AI=2, Human=5 | Huvudsaklig | Grundläggande missförstånd; omdesignvillkor |
Vanliga fallgropar
Här är vanliga fallgropar i rubrikförfining och strategier för att undvika dem:
Alltför komplexa kriterier
- Problem: Rubrik listar 10 eller mer kriterier med nyanserade distinktioner
- Resultat: Både människor och AI kämpar med att tillämpa på ett konsekvent sätt
- Lösning: Fokusera på 3 till 5 nyckeldimensioner; förenkla språket
Subjektiva kriterier
- Problem: Kriterier som "låter bra" eller "känns professionella"
- Resultat: Låg justering på grund av tolkningsskillnader
- Lösning: Använd observerbara, mätbara kriterier
Inkonsekvent mänsklig bedömning
- Problem: Mänsklig bedömare tillämpar olika standarder över olika testfall
- Resultat: Förfining kan inte identifiera tydliga mönster
- Lösning: Använd checklista för betygsättning; referera till bedömningsmall kontinuerligt; betygsätt i fokuserade sessioner
Otillräckliga exempel
- Problem: Inga exempel eller bara ett eller två exempel
- Resultat: AI saknar konkret vägledning
- Lösning: Markera sex till tio exempel per iteration, balanserade bra eller dåliga exempel
Överanpassning till testfall
- Problem: För många iterationer med samma testfall
- Resultat: Kriterier blir hyperspecifika för träningsuppsättning
- Lösning: Efter fyra till fem iterationer testar du med nya testfall
Strävan efter perfekt justering
- Problem: Fortsätta iterera vid 85–90% justering
- Resultat: Minskande avkastning; risk för överanpassning
- Lösning: Stoppa vid 80-90%; acceptera viss subjektivitet
Ignorera AI-logik
- Problem: Läser inte AI-resonemang i den fullständiga vyn
- Resultat: Insikter saknas i hur kriterier tolkas
- Lösning: Granska AI-skäl för feljusterade fall; identifiera mönster
Förvirring i test- och förfiningsläge
- Problem: Använda kriterier för testfallsnivå när man försöker förfina
- Resultat: Ingen AI-logik är tillgänglig; kan inte analysera feljustering
- Lösning: Använd alltid testnivårubriker för förfining
Avancerade tips
Här är några avancerade tips för att få ut mesta möjliga av din kriteriumförfiningsprocess.
Använda flera testuppsättningar
Skapa olika testuppsättningar för olika syften:
- Träningsuppsättning: Primär uppsättning för förfining (30–50 exempel)
- Verifieringsuppsättning: Nya fall för att testa generalisering (10–20 fall)
Förfina på träningsuppsättningen; validera på valideringsuppsättningen.
Version dina kriterier
Använd namngivningskonvention:
-
IR Report Rubric v1(baslinje) -
IR Report Rubric v2(efter iteration 1-2) -
IR Report Rubric v3 - Final(produktionsklar)
Spåra mått över tid
Skapa en logg:
| Iteration | Datum | Justering % | Nyckeländringar | Notes |
|---|---|---|---|---|
| v1 | 2026-01-15 | 62% | Inledande riktlinjer | AI för överseende med tonen |
| v2 | 2026-01-20 | 74% | Förtydligade tonkriterier, lade till 8 exempel | Förbättring i årskurs 3-4 |
| v3 | 2026-01-25 | 83% | Förfinad definition av klass 5 | Tillräckligt bra för produktion |
Samarbeta om klassificering
För kritiska kriterier:
- Låt två eller tre personer bedöma var för sig.
- Jämför betyg och diskutera skillnader
- Skapa konsensus om standarder
- Använda konsensusbetyg för förfining
Testa kriterier mellan agenter
En gång förfinad:
- Testa samma kriterier för olika agenter
- Se till att kriteriet är generaliserat, inte agentspecifikt
- Verifiera att kriterier mäter kvalitet, inte agentbeteende
Checklista: Redo att gå över till testläget
Innan du distribuerar en rubric på testfallsnivå för återkommande tester ska du se till att:
- Justeringen är 80% eller högre på förfiningstestuppsättningen.
- Du testar nya testfall (används inte i förfining) med liknande justering.
- Betygsdefinitioner är tydliga och specifika.
- Kriteriet innehåller 10 till 20 eller fler bra eller dåliga exempel.
- Det finns ingen systematisk bias (AI är inte konsekvent för överseende eller strikt).
- Feljusteringsstorleken är mestadels plus eller minus ett steg (acceptabel variation).
- Intressenterna är överens om att kriterier återspeglar organisationens standarder.
- Dokumentation om syftet och användningen av bedömningsmatrisen finns.
Om du kontrollerar alla objekt är du redo att använda kriteriet för regelbunden testning.