Referensguide för kriterier

Den här referensguiden innehåller detaljerad information om skalningsdefinitioner för betyg, justeringsberäkningsformler, exempelavsnitt för olika användningsfall, utvärderingsteman och en ordlista med viktiga termer. Använd den för att skapa och förfina kriterier för utvärdering av AI-genererade svar i Copilot Studio.

Definitioner av betygsskala

Använd standardskalan på 5 punkter i alla kriterier:

Grade Etikett Definition
5 Exemplarisk Till fullo uppfyller alla förväntningar; professionell och polerad; inga förbättringar behövs. redo för användning
4 Stark Uppfyller alla större krav med mindre förbättringsområden; övergripande kvalitet. mestadels redo
3 Acceptabelt Uppfyller minimikraven men saknar djup eller polering; funktionellt adekvat. behöver förbättras
2 Svag Innehåller meningsfulla luckor i kvalitet, struktur eller relevans; behöver betydande förbättringar
1 Behöver förbättras Uppfyller inte förväntningarna; problem med noggrannhet, relevans, ton eller fullständighet

Formel för justeringsberäkning

Här är formeln för att beräkna justeringen mellan AI-betyg och mänskliga betyg för enskilda testfall och hur du analyserar riktningsfel.

Individuell anpassning av testfall

För varje testfall:

Aligned = (AI Grade == Human Grade)
Misaligned = (AI Grade ≠ Human Grade)

Justeringsberäkning för enskilda testfall

För varje testfall beräknar du justeringen mellan AI-genererade svar och mänskliga förväntningar med hjälp av linjär interpolation från 100% (perfekt matchning) till 0% (maximalt olika).

Tolkning:

  • När AI-betyg = Mänskligt betyg, överensstämmelse = 100 %
  • När betygsskillnaden ökar minskar justeringen linjärt
  • Den maximala skillnaden på en skala mellan 1 och 5 är 4 steg, vilket motsvarar 0%

Formel:

alignment = 100% * (1 - |AI - Human| / 4)

Resulterande justeringsmatris:

AI ↓ / Människa → 1 2 3 4 5
1 100 % 75% 50 % 25 % 0 %
2 75% 100 % 75% 50 % 25 %
3 50 % 75% 100 % 75% 50 %
4 25 % 50 % 75% 100 % 75%
5 0 % 25 % 50 % 75% 100 %

Egenskaper:

  • Symmetrisk: Justeringen är densamma oavsett vilket värde som är AI och vilket som är mänskligt
  • Diagonal = 100%: Perfekt justering när AI- och mänskliga betyg matchar.
  • Ytterkanter = 0%: Maximal felinriktning när betygen är på motsatta ändar av skalan
  • Smidig, linjär interpolation: Justeringen minskar enhetligt när skillnaden ökar

Exempelberäkning:

  • Totalt antal testkörningar med mänskliga betyg: 30
  • Testfall där AI-betyg = Mänskligt betyg: 24
  • Överensstämmelse % = 24 / 30 × 100 % = 80 %

Analys av riktningsmisallignment

AI too lenient = Count of (AI Grade > Human Grade)
AI too strict = Count of (AI Grade < Human Grade)
Net bias = (AI too lenient - AI too strict) / Total misaligned cases

Exempel:

  • AI-betyg > Mänskligt betyg: 3 körningar (AI för milt)
  • AI-klass < Mänskligt betyg: 3 fall (AI för strikt)
  • Netto bias = (3 - 3) / 6 = 0 (ingen systematisk bias)

Exempel på kriterier 1: Rapport om investerarrelationer

Hur ett bra svar ser ut

Utvärdera det skickade svaret mot expertsvaret eller förväntad standard för IR-specifika kommunikationskvaliteter:

  • Klarhet: Förmedlas informationen tydligt och logiskt?
  • Relevans: Matchar innehållet vad investerare förväntar sig?
  • Fullständighet: Ingår viktiga affärsdrivrutiner och mått?
  • Koherens och berättande kvalitet: Är berättelsen sammanhängande och läsbar?
  • Professionell ton: Låter svaret som polerade IR-utdata?
  • Insiktsfullhet: Belyser den innebörd, drivrutiner eller risker?
  • Noggrannhet kontra förväntan: Håller den sig i linje med vad ett IR-team skulle anse vara acceptabelt (inte nödvändigtvis faktabedömning)?

Betygsdefinitioner

Så här tolkar du skalan 1–5 för en IR-rapport:

5: Utmärkt eller professionell IR-kvalitet

Svaret:

  • Uppfyller helt förväntningarna i en IR-rapport
  • Välstrukturerad, polerad och investerarklar
  • Innehåller alla viktiga element: KPI:er (Key Performance Indicators), prestandadrivrutiner, kommentarer, framåtblickande insikter (om det är lämpligt) och strategisk kontext
  • Tonen är professionell och överensstämmer med företagets IR-röst
  • Den narrativa flödet är logiskt, med skarpa och koncisa förklaringar.
  • Inga irrelevanta detaljer; hög användbarhet för investerare

4: Stark eller hög kvalitet

Svaret:

  • Omfattar alla viktiga innehållsområden som är relevanta för investerare
  • Mestadels välorganiserat med mindre luckor eller liten redundans
  • Tonen är professionell, men kanske mindre polerad än betyg fem
  • Ger användbara insikter och kommentarer
  • Visst utrymme för att förbättra täthet, klarhet eller betoning på viktiga faktorer

3: Tillräckliga eller uppfyller minimikraven för IR

Svaret:

  • Kommunicerar korrekt och förnuftigt innehåll men saknar djup eller polering
  • Ett eller två viktiga IR-element saknas (till exempel kontext för resultat, drivrutiner eller risker)
  • Narrativ kan kännas mekanisk eller generisk
  • Tonen är acceptabel men inte lika polerad eller investerarvänlig
  • Ger grundläggande information men begränsad insikt

2: Svag eller delvis lämplig

Svaret:

  • Innehåller meningsfulla luckor i narrativ, struktur eller relevans
  • Missar viktiga komponenter som är relevanta för investerare som mått, drivrutiner eller affärskontext
  • Tonen kan vara inkonsekvent eller för avslappnad
  • Organisationen kan känna sig utspridd eller otydlig
  • Ger lite verkligt värde till en investerare eller IR-professionell

1: Dålig eller inte lämplig för IR-användning

Svaret:

  • Missar de flesta förväntningar för en IR-rapport
  • Ostrukturerad, förvirrande eller irrelevant för investerarnas behov
  • Tonen är oprofessionell, alltför avslappnad eller marknadsföringsliknande
  • Saknar mått, drivrutiner, förklaringar eller innehåller vilseledande inramning
  • Återspeglar inte IR-kommunikationsstandarder

Exempel på kriterier 2: Affärssammanfattningar eller statusrapportgenerering

Hur ett bra svar ser ut

Utvärdera den skickade rapporten om hur väl den matchar den förväntade tonen och stilen, inklusive:

  • Professionalism: Upprätthåller det en affärsmässig ton?
  • Konsekvens: Förblir tonen enhetlig hela vägen?
  • Röstjustering: Låter det som företaget, teamet eller IR-avdelningen?
  • Formalitet: Matchar formalitetsnivån rapporttypen (till exempel IR = hög, IT-vecka = medel)?
  • Klarhet och direkthet: Är det koncist, skarpt, utan fluff?
  • Stilistisk efterlevnad: Följer den förväntade mönster – punktstruktur, stil för exekutiv sammanfattning, tempusbruk och sådant?
  • Undvikande av bias eller känslor: Ingen slang, hypespråk eller marknadsföringsliknande ton om inte uttryckligen begärs.

Betygsdefinitioner

Så här tolkar du skalan 1–5 för en affärssammanfattning eller statusrapport:

5: Utmärkt (konsekvent, professionell, på varumärke)

Rapporten:

  • Upprätthåller en helt konsekvent ton genomgående
  • Matchar den förväntade företags-, IR- eller IT-rösten exakt
  • Använder professionellt, polerat, självsäkert språk
  • Följer formatkonventioner: Strukturerade stycken, tydliga punkter, uppmätt frasering
  • Undviker hype, överdrift, nonchalanthet och känslomässigt språk
  • Läser som om det skrivits av en erfaren företagskommunikatör

4: Stark (Mindre variationer men hög kvalitet)

Rapporten:

  • Matchar den förväntade tonen nästan perfekt med små avvikelser
  • Använder mestadels konsekvent frasering, med inslag av överdriven ordlighet eller informellt språkbruk.
  • Följer de flesta stilkonventioner, men kan skärpas
  • Innehåller inget oprofessionellt språk, men kan använda något generisk eller svagare frasering

3: Adekvat (acceptabelt men inte helt konsekvent)

Rapporten:

  • Visar märkbar variation i tonen i avsnitt
  • Använder stil som mestadels är korrekt men ibland informell, alltför avslappnad eller något marknadsföringsliknande
  • Kan avvika från förväntad företagsröst
  • Har acceptabel men något inkonsekvent struktur (blandade punktformat, ojämn formalitet)
  • Är fortfarande professionell nog att förstå men inte investerare- eller chefsklar

2: Svag (Tonproblem påverkar professionalism)

Rapporten:

  • Använder ofta inkonsekvent ton. kan blanda formellt och tillfälligt språk
  • Använder konversations- eller "chattiga" fraser som är olämpliga för rapporter
  • Visar stilistiska inkonsekvenser som hopslagna meningar, röriga punktlistor och informella övergångar
  • Använder ton som kan verka som marknadsföringsliknande, känslomässig eller vag
  • Följer inte den förväntade stilguiden på ett bra sätt

1: Dålig (inte lämplig för rapportanvändning)

Rapporten:

  • Använder en ton som är starkt omatchad, för avslappnad, känslosam, överdriven eller oklar
  • Har ingen konsekvent stil och saknar struktur
  • Använder ton som undergräver trovärdighet eller professionalism
  • Kan innehålla slang, emojis, dramatisering eller narrativt berättande som är olämpligt för rapporter
  • Läser som ett tillfälligt e-postmeddelande eller blogginlägg, inte en formell rapport

Utvärderingsteman eller kriterier

Vanliga utvärderingsdimensioner som du kan använda i olika kriterier. Välj de teman som är mest relevanta för ditt användningsfall.

Utvärderingskriterium Definition När du ska använda Exempel på användarindata Förväntat svar
Noggrannhet Informationen är faktamässigt korrekt eller så kommer data från den grundläggande sanningskällan (Q&A, hämtning, rapporter). När faktamässig korrekthet är nödvändig (till exempel finansiella data, tekniska specifikationer). Frågor med verifierbara svar (till exempel "Vad är RTD-principen?") Sakligt korrekta svar; all information är korrekt.
Grundlighet eller tillförlitlighet Svaret baseras endast på tillhandahållna kunskaper eller hämtade data. ingen felaktig information. När agenten syntetiserar eller refererar till KB-innehåll. Frågor som kräver bevis eller citat. Jordade svar med citat; inga pågjorda fakta.
Fullständighet Svaret adresserar alla delar, avsnitt eller steg i en uppgift. När utdata ska innehålla flera delar (instruktioner, rapportgenerering). Flerdelade frågor eller uppmaningar (till exempel introduktionssteg). Svaret adresserar alla nödvändiga element.
Relevance Informationen bör vara specifik för användarfrågan och hålla sig till ämnet. När utdataomfånget måste vara smalt (till exempel en enskild policy). Uppmaningar med fokuserat syfte. Koncisa, riktade svar; undantar orelaterad information.
Consistency Agenten tillhandahåller samma utdata för motsvarande eller upprepade frågor. Utvärdera alltid för QA och fastställa repeterbarhet. Upprepade frågor. Identiska eller nästan identiska svar.
Tydlighet och enhetlighet Utdata är tydligt skrivna, logiskt strukturerade och lätta att förstå. Alltid för generering, säkerställer mänsklig läsbarhet. Alla frågor om innehållsgenerering. Grammatiskt korrekt, sammanhängande, flödande text.
Terminologi eller efterlevnad Konsekvent användning av nödvändig terminologi eller fraseringsstandarder. När varumärkes- eller domänspråk spelar roll (till exempel HR, legal). Frågor som anger namngivnings- eller fraseringsregler. Korrekta, kompatibla villkor.
Källhänvisning, spårbarhet eller ansvarsskyldighet Agenten pekar korrekt tillbaka en användare till rätt källa. När trovärdighet eller spårbarhet krävs. Frågor som behöver evidensbaserade svar. Citat överensstämmer med rätt källor.
Formatering och presentation Följer specifik struktur eller layout (tabeller, avsnitt). När agenten genererar formaterade utdata (till exempel sammanfattningar, rapporter). Frågor som kräver strukturerade utdata. Korrigera rubriker, punktstilar och layout.
Medvetenhet om sammanhang Svaret är skräddarsytt för användarens persona, avsikt eller frågekontext. För personliga eller kontextuella frågor (till exempel rollspecifika). Uppmaningar som skiljer sig åt beroende på roll eller kontext. Kontextspecifika, anpassade svar.
Hallucinationsfri Agenten bör inte uppfinna fakta utöver angivna data. När källtäckningen är begränsad eller känslig. Utanför prompterna. "Jag vet inte" eller säkert reservsvar.

Så här använder du utvärderingsteman

Så här införlivar du utvärderingsteman i ditt ämne:

  1. Välj tre till fem relevanta teman för ditt ämne.
  2. Definiera vad varje tema betyder i din domän.
  3. Införliva teman till betygsdefinitioner (till exempel måste betyg 5 utmärka sig i alla teman).
  4. Använd teman som en checklista när du tillhandahåller ett mänskligt betyg.

För ett IR-rapportriterium prioriterar du till exempel:

  • Noggrannhet (kritisk)
  • Fullständighet (kritisk)
  • Tydlighet och enhetlighet (viktigt)
  • Terminologi och efterlevnad (viktigt)
  • Formatering och presentation (trevligt att ha)

Ordlista

Här är definitioner för viktiga termer som används i samband med förfining av kriterier i Copilot Studio Kit.

Handläggare

Andrepiloten eller AI-assistenten som testas. Vid förfining av bedömningsformulär genererar agenten svar som både AI-domare och mänskliga skapare utvärderar.

AI-betyg, AI-poäng

Det numeriska omdömet (1–5) som AI-domaren tilldelar baserat på kriterier.

AI-logik, AI-resonemang

Den detaljerade förklaringen från AI-domaren (i förfiningsläge) som förklarar varför den tilldelade ett visst betyg och vilka kriterier som tillämpades.

Justering, feljustering

I vilken grad AI-domarens utvärdering matchar det mänskliga omdömet.

  • Justering: AI-klass = Människoklass (indikerar att bedömningskriteriet fungerar som avsett)
  • Feljustering: AI-betyg ≠ Mänskligt betyg (indikerar förfining av kriterier)

Fullständighet

Ett mått på om svaret till fullo åtgärdar alla delar av användarens fråga. Ett fullständigt svar omfattar varje obligatoriskt element utan utelämnanden.

Korrekthet, noggrannhet

Ett kriterium som bedömer om agentens svar är korrekt baserat på förväntat eller referenssvar, auktoritativ kunskap eller systembaserat innehåll.

Detaljerad vy

Ett fokuserat gränssnitt för att granska och bedöma enskilda testfall med längre svar. Innehåller fullständig konversationskontext och flikar för "Förfining" (AI dolt) och "Förfining (fullständig)" (AI synligt).

Riktningsbias

Ett systematiskt mönster där AI-domaren konsekvent betygsätter högre (för överseende) eller lägre (för strikt) än mänskliga domare. Du kan identifiera det här mönstret genom att jämföra antalet feljusteringar mellan (AI > Human) och (AI < Human).

Trofasthet

Liknar grundinställning men betonar att modellen inte fabricerar nya fakta utöver vad det kriteriet eller den tillhandahållna kontexten tillåter.

Fullständig förfiningsvy

Gränssnittsvyn för förfining av kriterier som visar AI-betyg och logik tillsammans med mänskliga betyg, med justeringsindikatorer. Använd den för att jämföra utvärderingar och analysera feljusteringsmönster.

Generativt svarstest (GA-test)

En testtyp i Copilot Studio Kit där agenten genererar svar på naturligt språk med generativ orkestrering som du utvärderar mot angivna valideringsinstruktioner eller ett kriterium.

Bra exempel, dåligt exempel

Verkliga testfall som tillverkaren väljer för att illustrera önskade eller oönskade svarsmönster. Exempel är testyttrande, agentsvar och beteckning (bra eller dåligt). Använd de här exemplen under förfining av bedömningskriterier för att ge AI-domaren konkret vägledning.

Groundedness

Ett kvalitetsmått som anger om ett AI-genererat svar stöds av källinformationen (till exempel hämtade dokument, systemmeddelanden eller definierade fakta). Ett grundat svar introducerar inte information som du inte kan spåra tillbaka till en känd auktoritativ källa.

Mänskligt omdöme, mänsklig kommentar

En tillverkares utvärdering av en agents svar, bestående av ett betyg (1-5) och tillhörande resonemang. Mänskliga domar fungerar som "guldstandarden" mot vilken du jämför AI-domarens beteende under förfining.

Iterera, iteration

En enda cykel av processen för förfining av kriterier: kör → granska → betygsätt → förfina → spara → kör igen. Du behöver vanligtvis flera iterationer för att uppnå acceptabel justering.

LLM-domare, AI-domare, AI-utvärderare

En stor språkmodell som utvärderar en agents svar enligt en rubrik. Domaren ger en poäng från 1 till 5 och kan också ge en motivering som förklarar hur kriterierna tolkades och tillämpades.

Omfattningen av feljustering

Den numeriska skillnaden mellan AI och mänskliga betyg. En skillnad av 1 poäng är en liten misanpassning. En skillnad på 2 eller fler punkter indikerar mer betydande problem som kräver förfining.

Skapare

En användare av Copilot Studio Kit som skapar, testar och hanterar copilots och utvärderings rubrics. I samband med förfining av kriterier tillhandahåller tillverkaren mänskliga bedömningar som fungerar som utvärderingsstandard.

Överanpassning

När ett kriterier blir för specifikt för de testfall som används under förfining och misslyckas med att generalisera till nya, osynliga svar. Undvik överanpassning genom att begränsa iterationer och testning med nya testfall.

Godkänt betyg

Lägsta godtagbara betyg (1–5) för att ett provfall ska anses godkänt.

  • Testläge (testkörningsnivå): Avgör faktiska resultat för godkänt icke godkänt.
  • Förfiningsläge (testkörningsnivå): Endast en informationsindikator; målet är att justera, inte att klara testet.

Resonemangskvalitet

En utvärdering av huruvida svaret visar sammanhängande tänkande, logiska steg, motivering och korrekt tolkning av problemet.

Aktualitet (temporär noggrannhet)

Ett kriterium som utvärderar om svaret återspeglar information som är kronologiskt korrekt eller uppdaterad. Det här kriteriet är särskilt relevant för tidskänsligt innehåll, till exempel händelser, datum, scheman och tillgänglighet.

Förfiningsläge (testkörningsnivå rubrik)

En bedömningsmatris som används på nivån för testkörningar specifikt för iterativ förfining av bedömningsmatris. AI:n ger ett betyg och en detaljerad motivering. Processen hoppar över testtyper för icke-generativa svar. Målet är att minimera feljusteringen mellan AI och mänskliga betyg.

Relevans

Ett mått på hur direkt och lämpligt agentens svar hanterar användarens fråga. Ett svar är relevant om det ligger inom frågeomfånget och undviker onödig eller störande information.

Bedömningskriterier

En strukturerad uppsättning instruktioner för bedömning av naturligt språk som en AI-domare använder för att utvärdera kvaliteten på en agent svar. Ett kriterier definierar kriterier, förväntningar, exempel och bedömningsskala (1–5) som avgör vad som utgör ett "bra" eller "dåligt" svar för en specifik domän eller användningsfall.

Förfining av rubrik

En iterativ process för att förbättra tydligheten, specificiteten och effektiviteten hos ett kriterier baserat på observerad justering eller feljustering mellan mänskligt omdöme och AI-omdöme. Förfining omfattar att uppdatera instruktioner, lägga till exempel och köra tester igen tills utvärderingsbeteendet överensstämmer med domänförväntningarna.

Standard förfiningsvy

Gränssnittsvyn för förfining av kriterier som döljer AI-betyg och logik för att förhindra bias när du ger mänskliga bedömningar. Använd den här vyn för inledande granskning och opartisk bedömning.

Testningsläge (bedömningsmatriser för testkörningsnivå)

Använd en bedömningsmall på individnivå för testfall för regelbunden kvalitetssäkring. AI ger endast betyg (ingen anledning) för kostnadseffektivitet. Godkänt eller underkänt bestäms av om betyget är större än eller lika med godkändgränsen.

Testkörning

Ett enskilt test i en testuppsättning som består av ett testyttrande (användarindata), förväntat beteende och valideringskriterier (standardverifiering eller rubricbaserad klassificering).

Testkörning

En enda körning av en testuppsättning som ger resultat som inkluderar agentsvar, AI-betyg, mänskliga anteckningar (i förfiningsläge) och justeringsindikatorer.

Åsidosättning av bedömningsmatris för testkörningsnivå

När du väljer en bedömningsmatris på testkörningsnivån gäller det för alla testkörningar av generativa svar i den körningen, vilket åsidosätter eventuella bedömningsmatriser som tilldelats på den enskilda testkörningsnivån.

Testuppsättning

En samling av ett eller flera testfall som körs tillsammans. I förfiningsläge gäller samma kriterier för alla Generative Answer-testfall i uppsättningen.

Verifieringsinstruktioner

Textbaserade instruktioner som används i vanliga Generative Answer-tester för att ange vad som gör ett svar acceptabelt. Kan inte kombineras med bedömningsmatrisbaserad betygsättning. När du väljer ett kriterier döljs eller ignoreras verifieringsinstruktioner.

Snabbreferens: Arbetsflödessteg för förfining

  1. Starta körning: Konfigurera testkörning med bedömningskriterier (testkörningsnivå) plus godkänt betyg; utföra.
  2. Granska: Öppna standardförfiningsvyn (AI-dold).
  3. Betyg: Ge mänskliga betyg (1-5) och resonemang för alla testfall.
  4. Markera exempel: Slå på/av Markerad som exempel för 6–10 goda eller dåliga exempel.
  5. Analysera: Växla till fullständig förfiningsvy; granska AI-betyg och motiveringar. beräkna justering.
  6. Förfina: Välj Förfina rubric; AI analyserar mönster; uppdaterar rubric.
  7. Spara: Spara (skriva över) eller Spara som (ny version).
  8. Kör igen: Upprepa testkörning; Kör med reviderad vägledning.
  9. Upprepa: Fortsätt tills justeringen är 80–90% eller högre.

Snabbreferens: Testläge kontra förfiningsläge

Aspect Testläge Förfiningsläge
Rubricnivå Testkörning Testkörning
Syfte Kvalitetssäkring Förbättring av kriterier
AI-utdata Endast betyg Betyg + motivering
Cost Lower Högre
Godkänt betyg Avgör godkänd eller underkänd Endast för information
Mål Identifiera svar av låg kvalitet Minimera AI-mänsklig felaktig överensstämmelse
Icke-GA-tester Kör normalt Hoppades över
Mänsklig bedömning Krävs inte Krävs för förfining

Snabbguide: Nivåvalsguide

Godkänt betyg När du ska använda Förväntat antal godkända
5 (Exemplariskt) Kritisk kommunikation (IR, verkställande, juridisk) Låg passeringsfrekvens; endast bästa svar skickas
4 (Stark) Professionell affärskommunikation Måttlig passeringshastighet; högkvalitativa svar skickas
3 (acceptabelt) Interna verktyg, minsta funktionalitet Högt antal godkända, funktionella svar godkänns
2 (svag) Mycket låg ribba (sällan lämplig) Mycket hög passeringshastighet
1 (Behöver förbättras) Används nästan aldrig Nästan alla svar godkänns

Rekommendation: Använd 5 som standard betyget godkänt i förfiningsläge. Justera till 4 eller 5 för testläge baserat på dina kvalitetsstandarder.