Referensguide för kriterier

Den här referensguiden innehåller detaljerad information om skalningsdefinitioner för betyg, justeringsberäkningsformler, exempelavsnitt för olika användningsfall, utvärderingsteman och en ordlista med viktiga termer. Använd den för att skapa och förfina kriterier för utvärdering av AI-genererade svar i Copilot Studio.

Definitioner av betygsskala

Använd standardskalan på 5 punkter i alla kriterier:

Grade	Etikett	Definition
5	Exemplarisk	Till fullo uppfyller alla förväntningar; professionell och polerad; inga förbättringar behövs. redo för användning
4	Stark	Uppfyller alla större krav med mindre förbättringsområden; övergripande kvalitet. mestadels redo
3	Acceptabelt	Uppfyller minimikraven men saknar djup eller polering; funktionellt adekvat. behöver förbättras
2	Svag	Innehåller meningsfulla luckor i kvalitet, struktur eller relevans; behöver betydande förbättringar
1	Behöver förbättras	Uppfyller inte förväntningarna; problem med noggrannhet, relevans, ton eller fullständighet

Formel för justeringsberäkning

Här är formeln för att beräkna justeringen mellan AI-betyg och mänskliga betyg för enskilda testfall och hur du analyserar riktningsfel.

Individuell anpassning av testfall

För varje testfall:

Aligned = (AI Grade == Human Grade)
Misaligned = (AI Grade ≠ Human Grade)

Justeringsberäkning för enskilda testfall

För varje testfall beräknar du justeringen mellan AI-genererade svar och mänskliga förväntningar med hjälp av linjär interpolation från 100% (perfekt matchning) till 0% (maximalt olika).

Tolkning:

När AI-betyg = Mänskligt betyg, överensstämmelse = 100 %
När betygsskillnaden ökar minskar justeringen linjärt
Den maximala skillnaden på en skala mellan 1 och 5 är 4 steg, vilket motsvarar 0%

Formel:

alignment = 100% * (1 - |AI - Human| / 4)

Resulterande justeringsmatris:

AI ↓ / Människa →	1	2	3	4	5
1	100 %	75%	50 %	25 %	0 %
2	75%	100 %	75%	50 %	25 %
3	50 %	75%	100 %	75%	50 %
4	25 %	50 %	75%	100 %	75%
5	0 %	25 %	50 %	75%	100 %

Egenskaper:

Symmetrisk: Justeringen är densamma oavsett vilket värde som är AI och vilket som är mänskligt
Diagonal = 100%: Perfekt justering när AI- och mänskliga betyg matchar.
Ytterkanter = 0%: Maximal felinriktning när betygen är på motsatta ändar av skalan
Smidig, linjär interpolation: Justeringen minskar enhetligt när skillnaden ökar

Exempelberäkning:

Totalt antal testkörningar med mänskliga betyg: 30
Testfall där AI-betyg = Mänskligt betyg: 24
Överensstämmelse % = 24 / 30 × 100 % = 80 %

Analys av riktningsmisallignment

AI too lenient = Count of (AI Grade > Human Grade)
AI too strict = Count of (AI Grade < Human Grade)
Net bias = (AI too lenient - AI too strict) / Total misaligned cases

Exempel:

AI-betyg > Mänskligt betyg: 3 körningar (AI för milt)
AI-klass < Mänskligt betyg: 3 fall (AI för strikt)
Netto bias = (3 - 3) / 6 = 0 (ingen systematisk bias)

Exempel på kriterier 1: Rapport om investerarrelationer

Hur ett bra svar ser ut

Utvärdera det skickade svaret mot expertsvaret eller förväntad standard för IR-specifika kommunikationskvaliteter:

Klarhet: Förmedlas informationen tydligt och logiskt?
Relevans: Matchar innehållet vad investerare förväntar sig?
Fullständighet: Ingår viktiga affärsdrivrutiner och mått?
Koherens och berättande kvalitet: Är berättelsen sammanhängande och läsbar?
Professionell ton: Låter svaret som polerade IR-utdata?
Insiktsfullhet: Belyser den innebörd, drivrutiner eller risker?
Noggrannhet kontra förväntan: Håller den sig i linje med vad ett IR-team skulle anse vara acceptabelt (inte nödvändigtvis faktabedömning)?

Betygsdefinitioner

Så här tolkar du skalan 1–5 för en IR-rapport:

5: Utmärkt eller professionell IR-kvalitet

Svaret:

Uppfyller helt förväntningarna i en IR-rapport
Välstrukturerad, polerad och investerarklar
Innehåller alla viktiga element: KPI:er (Key Performance Indicators), prestandadrivrutiner, kommentarer, framåtblickande insikter (om det är lämpligt) och strategisk kontext
Tonen är professionell och överensstämmer med företagets IR-röst
Den narrativa flödet är logiskt, med skarpa och koncisa förklaringar.
Inga irrelevanta detaljer; hög användbarhet för investerare

4: Stark eller hög kvalitet

Svaret:

Omfattar alla viktiga innehållsområden som är relevanta för investerare
Mestadels välorganiserat med mindre luckor eller liten redundans
Tonen är professionell, men kanske mindre polerad än betyg fem
Ger användbara insikter och kommentarer
Visst utrymme för att förbättra täthet, klarhet eller betoning på viktiga faktorer

3: Tillräckliga eller uppfyller minimikraven för IR

Svaret:

Kommunicerar korrekt och förnuftigt innehåll men saknar djup eller polering
Ett eller två viktiga IR-element saknas (till exempel kontext för resultat, drivrutiner eller risker)
Narrativ kan kännas mekanisk eller generisk
Tonen är acceptabel men inte lika polerad eller investerarvänlig
Ger grundläggande information men begränsad insikt

2: Svag eller delvis lämplig

Svaret:

Innehåller meningsfulla luckor i narrativ, struktur eller relevans
Missar viktiga komponenter som är relevanta för investerare som mått, drivrutiner eller affärskontext
Tonen kan vara inkonsekvent eller för avslappnad
Organisationen kan känna sig utspridd eller otydlig
Ger lite verkligt värde till en investerare eller IR-professionell

1: Dålig eller inte lämplig för IR-användning

Svaret:

Missar de flesta förväntningar för en IR-rapport
Ostrukturerad, förvirrande eller irrelevant för investerarnas behov
Tonen är oprofessionell, alltför avslappnad eller marknadsföringsliknande
Saknar mått, drivrutiner, förklaringar eller innehåller vilseledande inramning
Återspeglar inte IR-kommunikationsstandarder

Exempel på kriterier 2: Affärssammanfattningar eller statusrapportgenerering

Hur ett bra svar ser ut

Utvärdera den skickade rapporten om hur väl den matchar den förväntade tonen och stilen, inklusive:

Professionalism: Upprätthåller det en affärsmässig ton?
Konsekvens: Förblir tonen enhetlig hela vägen?
Röstjustering: Låter det som företaget, teamet eller IR-avdelningen?
Formalitet: Matchar formalitetsnivån rapporttypen (till exempel IR = hög, IT-vecka = medel)?
Klarhet och direkthet: Är det koncist, skarpt, utan fluff?
Stilistisk efterlevnad: Följer den förväntade mönster – punktstruktur, stil för exekutiv sammanfattning, tempusbruk och sådant?
Undvikande av bias eller känslor: Ingen slang, hypespråk eller marknadsföringsliknande ton om inte uttryckligen begärs.

Betygsdefinitioner

Så här tolkar du skalan 1–5 för en affärssammanfattning eller statusrapport:

5: Utmärkt (konsekvent, professionell, på varumärke)

Rapporten:

Upprätthåller en helt konsekvent ton genomgående
Matchar den förväntade företags-, IR- eller IT-rösten exakt
Använder professionellt, polerat, självsäkert språk
Följer formatkonventioner: Strukturerade stycken, tydliga punkter, uppmätt frasering
Undviker hype, överdrift, nonchalanthet och känslomässigt språk
Läser som om det skrivits av en erfaren företagskommunikatör

4: Stark (Mindre variationer men hög kvalitet)

Rapporten:

Matchar den förväntade tonen nästan perfekt med små avvikelser
Använder mestadels konsekvent frasering, med inslag av överdriven ordlighet eller informellt språkbruk.
Följer de flesta stilkonventioner, men kan skärpas
Innehåller inget oprofessionellt språk, men kan använda något generisk eller svagare frasering

3: Adekvat (acceptabelt men inte helt konsekvent)

Rapporten:

Visar märkbar variation i tonen i avsnitt
Använder stil som mestadels är korrekt men ibland informell, alltför avslappnad eller något marknadsföringsliknande
Kan avvika från förväntad företagsröst
Har acceptabel men något inkonsekvent struktur (blandade punktformat, ojämn formalitet)
Är fortfarande professionell nog att förstå men inte investerare- eller chefsklar

2: Svag (Tonproblem påverkar professionalism)

Rapporten:

Använder ofta inkonsekvent ton. kan blanda formellt och tillfälligt språk
Använder konversations- eller "chattiga" fraser som är olämpliga för rapporter
Visar stilistiska inkonsekvenser som hopslagna meningar, röriga punktlistor och informella övergångar
Använder ton som kan verka som marknadsföringsliknande, känslomässig eller vag
Följer inte den förväntade stilguiden på ett bra sätt

1: Dålig (inte lämplig för rapportanvändning)

Rapporten:

Använder en ton som är starkt omatchad, för avslappnad, känslosam, överdriven eller oklar
Har ingen konsekvent stil och saknar struktur
Använder ton som undergräver trovärdighet eller professionalism
Kan innehålla slang, emojis, dramatisering eller narrativt berättande som är olämpligt för rapporter
Läser som ett tillfälligt e-postmeddelande eller blogginlägg, inte en formell rapport

Utvärderingsteman eller kriterier

Vanliga utvärderingsdimensioner som du kan använda i olika kriterier. Välj de teman som är mest relevanta för ditt användningsfall.

Utvärderingskriterium	Definition	När du ska använda	Exempel på användarindata	Förväntat svar
Noggrannhet	Informationen är faktamässigt korrekt eller så kommer data från den grundläggande sanningskällan (Q&A, hämtning, rapporter).	När faktamässig korrekthet är nödvändig (till exempel finansiella data, tekniska specifikationer).	Frågor med verifierbara svar (till exempel "Vad är RTD-principen?")	Sakligt korrekta svar; all information är korrekt.
Grundlighet eller tillförlitlighet	Svaret baseras endast på tillhandahållna kunskaper eller hämtade data. ingen felaktig information.	När agenten syntetiserar eller refererar till KB-innehåll.	Frågor som kräver bevis eller citat.	Jordade svar med citat; inga pågjorda fakta.
Fullständighet	Svaret adresserar alla delar, avsnitt eller steg i en uppgift.	När utdata ska innehålla flera delar (instruktioner, rapportgenerering).	Flerdelade frågor eller uppmaningar (till exempel introduktionssteg).	Svaret adresserar alla nödvändiga element.
Relevance	Informationen bör vara specifik för användarfrågan och hålla sig till ämnet.	När utdataomfånget måste vara smalt (till exempel en enskild policy).	Uppmaningar med fokuserat syfte.	Koncisa, riktade svar; undantar orelaterad information.
Consistency	Agenten tillhandahåller samma utdata för motsvarande eller upprepade frågor.	Utvärdera alltid för QA och fastställa repeterbarhet.	Upprepade frågor.	Identiska eller nästan identiska svar.
Tydlighet och enhetlighet	Utdata är tydligt skrivna, logiskt strukturerade och lätta att förstå.	Alltid för generering, säkerställer mänsklig läsbarhet.	Alla frågor om innehållsgenerering.	Grammatiskt korrekt, sammanhängande, flödande text.
Terminologi eller efterlevnad	Konsekvent användning av nödvändig terminologi eller fraseringsstandarder.	När varumärkes- eller domänspråk spelar roll (till exempel HR, legal).	Frågor som anger namngivnings- eller fraseringsregler.	Korrekta, kompatibla villkor.
Källhänvisning, spårbarhet eller ansvarsskyldighet	Agenten pekar korrekt tillbaka en användare till rätt källa.	När trovärdighet eller spårbarhet krävs.	Frågor som behöver evidensbaserade svar.	Citat överensstämmer med rätt källor.
Formatering och presentation	Följer specifik struktur eller layout (tabeller, avsnitt).	När agenten genererar formaterade utdata (till exempel sammanfattningar, rapporter).	Frågor som kräver strukturerade utdata.	Korrigera rubriker, punktstilar och layout.
Medvetenhet om sammanhang	Svaret är skräddarsytt för användarens persona, avsikt eller frågekontext.	För personliga eller kontextuella frågor (till exempel rollspecifika).	Uppmaningar som skiljer sig åt beroende på roll eller kontext.	Kontextspecifika, anpassade svar.
Hallucinationsfri	Agenten bör inte uppfinna fakta utöver angivna data.	När källtäckningen är begränsad eller känslig.	Utanför prompterna.	"Jag vet inte" eller säkert reservsvar.

Så här använder du utvärderingsteman

Så här införlivar du utvärderingsteman i ditt ämne:

Välj tre till fem relevanta teman för ditt ämne.
Definiera vad varje tema betyder i din domän.
Införliva teman till betygsdefinitioner (till exempel måste betyg 5 utmärka sig i alla teman).
Använd teman som en checklista när du tillhandahåller ett mänskligt betyg.

För ett IR-rapportriterium prioriterar du till exempel:

Noggrannhet (kritisk)
Fullständighet (kritisk)
Tydlighet och enhetlighet (viktigt)
Terminologi och efterlevnad (viktigt)
Formatering och presentation (trevligt att ha)

Ordlista

Här är definitioner för viktiga termer som används i samband med förfining av kriterier i Copilot Studio Kit.

Handläggare

Andrepiloten eller AI-assistenten som testas. Vid förfining av bedömningsformulär genererar agenten svar som både AI-domare och mänskliga skapare utvärderar.

AI-betyg, AI-poäng

Det numeriska omdömet (1–5) som AI-domaren tilldelar baserat på kriterier.

AI-logik, AI-resonemang

Den detaljerade förklaringen från AI-domaren (i förfiningsläge) som förklarar varför den tilldelade ett visst betyg och vilka kriterier som tillämpades.

Justering, feljustering

I vilken grad AI-domarens utvärdering matchar det mänskliga omdömet.

Justering: AI-klass = Människoklass (indikerar att bedömningskriteriet fungerar som avsett)
Feljustering: AI-betyg ≠ Mänskligt betyg (indikerar förfining av kriterier)

Fullständighet

Ett mått på om svaret till fullo åtgärdar alla delar av användarens fråga. Ett fullständigt svar omfattar varje obligatoriskt element utan utelämnanden.

Korrekthet, noggrannhet

Ett kriterium som bedömer om agentens svar är korrekt baserat på förväntat eller referenssvar, auktoritativ kunskap eller systembaserat innehåll.

Detaljerad vy

Ett fokuserat gränssnitt för att granska och bedöma enskilda testfall med längre svar. Innehåller fullständig konversationskontext och flikar för "Förfining" (AI dolt) och "Förfining (fullständig)" (AI synligt).

Riktningsbias

Ett systematiskt mönster där AI-domaren konsekvent betygsätter högre (för överseende) eller lägre (för strikt) än mänskliga domare. Du kan identifiera det här mönstret genom att jämföra antalet feljusteringar mellan (AI > Human) och (AI < Human).

Trofasthet

Liknar grundinställning men betonar att modellen inte fabricerar nya fakta utöver vad det kriteriet eller den tillhandahållna kontexten tillåter.

Gränssnittsvyn för förfining av kriterier som visar AI-betyg och logik tillsammans med mänskliga betyg, med justeringsindikatorer. Använd den för att jämföra utvärderingar och analysera feljusteringsmönster.

Generativt svarstest (GA-test)

En testtyp i Copilot Studio Kit där agenten genererar svar på naturligt språk med generativ orkestrering som du utvärderar mot angivna valideringsinstruktioner eller ett kriterium.

Bra exempel, dåligt exempel

Verkliga testfall som tillverkaren väljer för att illustrera önskade eller oönskade svarsmönster. Exempel är testyttrande, agentsvar och beteckning (bra eller dåligt). Använd de här exemplen under förfining av bedömningskriterier för att ge AI-domaren konkret vägledning.

Groundedness

Ett kvalitetsmått som anger om ett AI-genererat svar stöds av källinformationen (till exempel hämtade dokument, systemmeddelanden eller definierade fakta). Ett grundat svar introducerar inte information som du inte kan spåra tillbaka till en känd auktoritativ källa.

Mänskligt omdöme, mänsklig kommentar

En tillverkares utvärdering av en agents svar, bestående av ett betyg (1-5) och tillhörande resonemang. Mänskliga domar fungerar som "guldstandarden" mot vilken du jämför AI-domarens beteende under förfining.

Iterera, iteration

En enda cykel av processen för förfining av kriterier: kör → granska → betygsätt → förfina → spara → kör igen. Du behöver vanligtvis flera iterationer för att uppnå acceptabel justering.

LLM-domare, AI-domare, AI-utvärderare

En stor språkmodell som utvärderar en agents svar enligt en rubrik. Domaren ger en poäng från 1 till 5 och kan också ge en motivering som förklarar hur kriterierna tolkades och tillämpades.

Omfattningen av feljustering

Den numeriska skillnaden mellan AI och mänskliga betyg. En skillnad av 1 poäng är en liten misanpassning. En skillnad på 2 eller fler punkter indikerar mer betydande problem som kräver förfining.

Skapare

En användare av Copilot Studio Kit som skapar, testar och hanterar copilots och utvärderings rubrics. I samband med förfining av kriterier tillhandahåller tillverkaren mänskliga bedömningar som fungerar som utvärderingsstandard.

Överanpassning

När ett kriterier blir för specifikt för de testfall som används under förfining och misslyckas med att generalisera till nya, osynliga svar. Undvik överanpassning genom att begränsa iterationer och testning med nya testfall.

Godkänt betyg

Lägsta godtagbara betyg (1–5) för att ett provfall ska anses godkänt.

Testläge (testkörningsnivå): Avgör faktiska resultat för godkänt icke godkänt.
Förfiningsläge (testkörningsnivå): Endast en informationsindikator; målet är att justera, inte att klara testet.

Resonemangskvalitet

En utvärdering av huruvida svaret visar sammanhängande tänkande, logiska steg, motivering och korrekt tolkning av problemet.

Aktualitet (temporär noggrannhet)

Ett kriterium som utvärderar om svaret återspeglar information som är kronologiskt korrekt eller uppdaterad. Det här kriteriet är särskilt relevant för tidskänsligt innehåll, till exempel händelser, datum, scheman och tillgänglighet.

En bedömningsmatris som används på nivån för testkörningar specifikt för iterativ förfining av bedömningsmatris. AI:n ger ett betyg och en detaljerad motivering. Processen hoppar över testtyper för icke-generativa svar. Målet är att minimera feljusteringen mellan AI och mänskliga betyg.

Relevans

Ett mått på hur direkt och lämpligt agentens svar hanterar användarens fråga. Ett svar är relevant om det ligger inom frågeomfånget och undviker onödig eller störande information.

Bedömningskriterier

En strukturerad uppsättning instruktioner för bedömning av naturligt språk som en AI-domare använder för att utvärdera kvaliteten på en agent svar. Ett kriterier definierar kriterier, förväntningar, exempel och bedömningsskala (1–5) som avgör vad som utgör ett "bra" eller "dåligt" svar för en specifik domän eller användningsfall.

En iterativ process för att förbättra tydligheten, specificiteten och effektiviteten hos ett kriterier baserat på observerad justering eller feljustering mellan mänskligt omdöme och AI-omdöme. Förfining omfattar att uppdatera instruktioner, lägga till exempel och köra tester igen tills utvärderingsbeteendet överensstämmer med domänförväntningarna.

Gränssnittsvyn för förfining av kriterier som döljer AI-betyg och logik för att förhindra bias när du ger mänskliga bedömningar. Använd den här vyn för inledande granskning och opartisk bedömning.

Testningsläge (bedömningsmatriser för testkörningsnivå)

Använd en bedömningsmall på individnivå för testfall för regelbunden kvalitetssäkring. AI ger endast betyg (ingen anledning) för kostnadseffektivitet. Godkänt eller underkänt bestäms av om betyget är större än eller lika med godkändgränsen.

Testkörning

Ett enskilt test i en testuppsättning som består av ett testyttrande (användarindata), förväntat beteende och valideringskriterier (standardverifiering eller rubricbaserad klassificering).

Testkörning

En enda körning av en testuppsättning som ger resultat som inkluderar agentsvar, AI-betyg, mänskliga anteckningar (i förfiningsläge) och justeringsindikatorer.

Åsidosättning av bedömningsmatris för testkörningsnivå

När du väljer en bedömningsmatris på testkörningsnivån gäller det för alla testkörningar av generativa svar i den körningen, vilket åsidosätter eventuella bedömningsmatriser som tilldelats på den enskilda testkörningsnivån.

Testuppsättning

En samling av ett eller flera testfall som körs tillsammans. I förfiningsläge gäller samma kriterier för alla Generative Answer-testfall i uppsättningen.

Verifieringsinstruktioner

Textbaserade instruktioner som används i vanliga Generative Answer-tester för att ange vad som gör ett svar acceptabelt. Kan inte kombineras med bedömningsmatrisbaserad betygsättning. När du väljer ett kriterier döljs eller ignoreras verifieringsinstruktioner.

Starta körning: Konfigurera testkörning med bedömningskriterier (testkörningsnivå) plus godkänt betyg; utföra.
Granska: Öppna standardförfiningsvyn (AI-dold).
Betyg: Ge mänskliga betyg (1-5) och resonemang för alla testfall.
Markera exempel: Slå på/av Markerad som exempel för 6–10 goda eller dåliga exempel.
Analysera: Växla till fullständig förfiningsvy; granska AI-betyg och motiveringar. beräkna justering.
Förfina: Välj Förfina rubric; AI analyserar mönster; uppdaterar rubric.
Spara: Spara (skriva över) eller Spara som (ny version).
Kör igen: Upprepa testkörning; Kör med reviderad vägledning.
Upprepa: Fortsätt tills justeringen är 80–90% eller högre.

Aspect	Testläge	Förfiningsläge
Rubricnivå	Testkörning	Testkörning
Syfte	Kvalitetssäkring	Förbättring av kriterier
AI-utdata	Endast betyg	Betyg + motivering
Cost	Lower	Högre
Godkänt betyg	Avgör godkänd eller underkänd	Endast för information
Mål	Identifiera svar av låg kvalitet	Minimera AI-mänsklig felaktig överensstämmelse
Icke-GA-tester	Kör normalt	Hoppades över
Mänsklig bedömning	Krävs inte	Krävs för förfining

Snabbguide: Nivåvalsguide

Godkänt betyg	När du ska använda	Förväntat antal godkända
5 (Exemplariskt)	Kritisk kommunikation (IR, verkställande, juridisk)	Låg passeringsfrekvens; endast bästa svar skickas
4 (Stark)	Professionell affärskommunikation	Måttlig passeringshastighet; högkvalitativa svar skickas
3 (acceptabelt)	Interna verktyg, minsta funktionalitet	Högt antal godkända, funktionella svar godkänns
2 (svag)	Mycket låg ribba (sällan lämplig)	Mycket hög passeringshastighet
1 (Behöver förbättras)	Används nästan aldrig	Nästan alla svar godkänns

Rekommendation: Använd 5 som standard betyget godkänt i förfiningsläge. Justera till 4 eller 5 för testläge baserat på dina kvalitetsstandarder.

Feedback

Var den här sidan till hjälp?

Last updated on 2026-04-17

Referensguide för kriterier

Definitioner av betygsskala

Formel för justeringsberäkning

Individuell anpassning av testfall

Justeringsberäkning för enskilda testfall

Analys av riktningsmisallignment

Exempel på kriterier 1: Rapport om investerarrelationer

Hur ett bra svar ser ut

Betygsdefinitioner

5: Utmärkt eller professionell IR-kvalitet

4: Stark eller hög kvalitet

3: Tillräckliga eller uppfyller minimikraven för IR

2: Svag eller delvis lämplig

1: Dålig eller inte lämplig för IR-användning

Exempel på kriterier 2: Affärssammanfattningar eller statusrapportgenerering

Hur ett bra svar ser ut

Betygsdefinitioner

5: Utmärkt (konsekvent, professionell, på varumärke)

4: Stark (Mindre variationer men hög kvalitet)

3: Adekvat (acceptabelt men inte helt konsekvent)

2: Svag (Tonproblem påverkar professionalism)

1: Dålig (inte lämplig för rapportanvändning)

Utvärderingsteman eller kriterier

Så här använder du utvärderingsteman

Ordlista

Handläggare

AI-betyg, AI-poäng

AI-logik, AI-resonemang

Justering, feljustering

Fullständighet

Korrekthet, noggrannhet

Detaljerad vy

Riktningsbias

Trofasthet

Fullständig förfiningsvy

Generativt svarstest (GA-test)

Bra exempel, dåligt exempel

Groundedness

Mänskligt omdöme, mänsklig kommentar

Iterera, iteration

LLM-domare, AI-domare, AI-utvärderare

Omfattningen av feljustering

Skapare

Överanpassning

Godkänt betyg

Resonemangskvalitet

Aktualitet (temporär noggrannhet)

Förfiningsläge (testkörningsnivå rubrik)

Relevans

Bedömningskriterier

Förfining av rubrik

Standard förfiningsvy

Testningsläge (bedömningsmatriser för testkörningsnivå)

Testkörning

Testkörning

Åsidosättning av bedömningsmatris för testkörningsnivå

Testuppsättning

Verifieringsinstruktioner

Snabbreferens: Arbetsflödessteg för förfining

Snabbreferens: Testläge kontra förfiningsläge

Snabbguide: Nivåvalsguide

Feedback

Ytterligare resurser