Naslaggids voor rubrieken

Deze referentiehandleiding bevat gedetailleerde informatie over definities van beoordelingsschaal, formules voor de berekening van uitlijning, voorbeeldrubrieken voor verschillende gebruikssituaties, evaluatierichtlijnen en een woordenlijst met belangrijke termen. Gebruik deze om rubrieken te maken en verfijnen voor het evalueren van door AI gegenereerde antwoorden in Copilot Studio.

Cijferschaaldefinities

Gebruik de standaardschaal van 5 punten in alle rubrieken:

Grade	Etiket	Definitie
5	Voorbeeldige	Voldoet volledig aan alle verwachtingen; professioneel en verzorgd; geen verbeteringen nodig; klaar voor gebruik
4	Sterk	Voldoet aan alle belangrijke vereisten met secundaire gebieden voor verbetering; hoge kwaliteit over het algemeen; voornamelijk gereed
3	Aanvaardbaar	Voldoet aan minimale verwachtingen, maar mist diepgang of verfijning; functioneel voldoende; heeft verbetering nodig.
2	Zwak	Bevat zinvolle hiaten in kwaliteit, structuur of relevantie; heeft aanzienlijke verbetering nodig
1	Moet Verbeterd Worden	Voldoet niet aan verwachtingen; grote problemen met nauwkeurigheid, relevantie, toon of volledigheid

Formule voor uitlijningsberekening

Hier is de formule voor het berekenen van de afstemming tussen AI-cijfers en menselijke cijfers voor afzonderlijke testcases, en hoe richtinggebonden afwijkingen te analyseren.

Afzonderlijke testcase-uitlijning

Voor elke testcase:

Aligned = (AI Grade == Human Grade)
Misaligned = (AI Grade ≠ Human Grade)

Uitlijningsberekening voor afzonderlijke testcases

Bereken voor elke testcase de uitlijning tussen door AI gegenereerde reacties en menselijke verwachtingen met behulp van lineaire interpolatie van 100% (perfecte overeenkomst) tot 0% (maximaal verschillend).

Interpretatie:

Wanneer AI-cijfer = menselijk cijfer, overeenstemming = 100%
Naarmate het verschil in niveau toeneemt, neemt de uitlijning lineair af
Het maximale verschil op een schaal van 1-5 is vier stappen, wat neerkomt op 0%

Formule:

alignment = 100% * (1 - |AI - Human| / 4)

Resulterende uitlijningsmatrix:

AI ↓ / Menselijk →	1	2	3	4	5
1	100%	75%	50%	25%	0%
2	75%	100%	75%	50%	25%
3	50%	75%	100%	75%	50%
4	25%	50%	75%	100%	75%
5	0%	25%	50%	75%	100%

Eigenschappen:

Symmetrisch: De uitlijning is hetzelfde, ongeacht welke waarde AI is en wat human is
Diagonal = 100%: Perfecte uitlijning wanneer AI en menselijke cijfers overeenkomen
Uitersten = 0%: maximaal verkeerde uitlijning wanneer beoordelingen zich aan tegenovergestelde uiteinden van de schaal bevinden
Vloeiende, lineaire interpolatie: Uitlijning neemt gelijkmatig af naarmate het verschil toeneemt

Voorbeeldberekening:

Totaal aantal testcases met menselijke beoordelingen: 30
Testcases waarbij AI-beoordeling = Menselijke beoordeling: 24
Uitlijning % = 24 / 30 × 100% = 80%

Analyse van richtingsafwijking

AI too lenient = Count of (AI Grade > Human Grade)
AI too strict = Count of (AI Grade < Human Grade)
Net bias = (AI too lenient - AI too strict) / Total misaligned cases

Voorbeeld:

AI-cijfer > Menselijke beoordeling: 3 gevallen (AI te mild)
AI-beoordeling < Menselijke beoordeling: 3 cases (AI te strikt)
Netto bias = (3 - 3) / 6 = 0 (geen systematische bias)

Voorbeeldrubriek 1: Rapport Investeerdersrelaties

Hoe een goed antwoord eruitziet

Evalueer het ingediende antwoord op basis van het deskundige antwoord of de verwachte standaard voor ir-specifieke communicatiekwaliteiten:

Duidelijkheid: Wordt informatie duidelijk en logisch gecommuniceerd?
Relevantie: Komt de inhoud overeen met wat investeerders verwachten?
Volledigheid: Zijn belangrijke zakelijke stuurprogramma's en metrische gegevens opgenomen?
Coherentie en verhaalkwaliteit: Is het verhaal coherent en leesbaar?
Professionele toon: klinkt het antwoord als gepolijste IR-uitvoer?
Inzichtelijkheid: Identificeert het betekenis, drijfveren of risico's?
Nauwkeurigheid versus verwachting: Blijft het afgestemd op wat een IR-team acceptabel zou achten (niet noodzakelijkerwijs feitelijke beoordeling)?

Beoordelingsdefinities

U kunt als volgt de cijferschaal van 1-5 voor een IR-rapport interpreteren:

5: Uitstekende of professionele IR-kwaliteit

Het antwoord:

Voldoet volledig aan de verwachtingen van een IR-rapport
Goed gestructureerd, professioneel en investeerdersklaar
Bevat alle belangrijke elementen: Key Performance Indicators (KPI's), prestatiefactoren, commentaar, vooruitziende inzichten (indien van toepassing) en strategische context
Tone is professioneel, consistent met zakelijke IR-stem
Verhalen stromen logisch, met scherpe, beknopte uitleg
Geen irrelevante details; grote gebruikerswaarde voor beleggers

4: Sterke of hoge kwaliteit

Het antwoord:

Behandelt alle belangrijke inhoudsgebieden die relevant zijn voor investeerders
Meestal goed georganiseerd met kleine hiaten of lichte redundantie
De toon is professioneel, hoewel misschien minder verfijnd dan score 5.
Biedt nuttige inzichten en commentaar
Enige ruimte om de dichtheid, helderheid of nadruk op belangrijke factoren te verbeteren

3: Voldoende of voldoet aan de minimale verwachtingen voor IR

Het antwoord:

Communiceert correcte en logische inhoud, maar mist diepte en afwerking.
Een of twee belangrijke IR-elementen ontbreken (bijvoorbeeld context voor resultaten, stuurprogramma's of risico's)
Verhaal voelt zich mogelijk mechanisch of algemeen
Toon is acceptabel, maar niet zo professioneel of beleggervriendelijk
Biedt basisinformatie, maar beperkt inzicht

2: Zwak of gedeeltelijk geschikt

Het antwoord:

Bevat zinvolle hiaten in verhaal, structuur of relevantie
Belangrijke onderdelen die relevant zijn voor investeerders, zoals metrische gegevens, stuurprogramma's of bedrijfscontext, mist
Toon kan inconsistent of te casual zijn
Organisatie voelt zich mogelijk verspreid of onduidelijk
Biedt weinig echte waarde aan een investeerder of IR-professional

1: Slecht of niet geschikt voor IR-gebruik

Het antwoord:

Voldoet niet aan de meeste verwachtingen van een IR-rapport
Ongestructureerd, verwarrend of irrelevant voor behoeften van investeerders
De toon is onprofessioneel, te informeel of met een marketingachtige toon.
Ontbreekt metrieken, stuurprogramma's, uitleg, of bevat misleidende kaders.
Voldoet niet aan IR-communicatiestandaarden

Voorbeeldrubriek 2: Zakelijke samenvattingen of het genereren van statusrapporten

Hoe een goed antwoord eruitziet

Evalueer het ingediende rapport over hoe goed het overeenkomt met de verwachte toon en stijl, waaronder:

Professionaliteit: Onderhoudt het een bedrijfsgepaste toon?
Consistentie: Blijft de toon overal uniform?
Stemuitlijning: Klinkt het als het bedrijf, het team of de IR-afdeling?
Formaliteit: Komt het formaliteitsniveau overeen met het rapporttype (bijvoorbeeld IR = hoog, IT wekelijks = gemiddeld)?
Helderheid en directheid: Is het beknopt, helder, zonder pluis?
Stijlnaleving: Volgt het de verwachte patronen: opsommingstekenstructuur, stijl van een managementsamenvatting, gebruik van tijden, enzovoort?
Vermijding van vooroordelen of emoties: geen slang, hype-taal of marketingachtige toon, tenzij expliciet gevraagd.

Beoordelingsdefinities

U kunt als volgt de schaal van 1-5 cijfers interpreteren voor een bedrijfsoverzicht of statusrapport:

5: Uitstekend (consistent, professioneel, in lijn met het merk)

Het rapport:

Onderhoudt een volledig consistente toon overal
Komt exact overeen met de verwachte zakelijke, IR- of IT-stem
Gebruik van professionele, verfijnde, zelfverzekerde taal
Volgt stijlconventies: Gestructureerde alinea's, duidelijke opsommingen, gemeten formulering
Vermijd hype, overdreven, ongedwongenheid en emotionele taal
Leest alsof deze is geschreven door een ervaren corporate communicator

4: Sterk (kleine variaties maar hoge kwaliteit)

Het rapport:

Komt bijna perfect overeen met de verwachte toon met lichte drift
Gebruikt voornamelijk consistente formuleringen, met kleine gebieden van overbodigheid of informele taal.
Volgt de meeste stijlconventies, maar kan worden aangescherpt
Bevat geen onprofessionele taal, maar kan iets algemene of zwakkere formuleringen gebruiken

3: Voldoende (acceptabel maar niet volledig consistent)

Het rapport:

Toont merkbare variatie in toon in verschillende secties
Maakt gebruik van stijl die meestal juist is, maar af en toe informeel, te casual of iets marketingachtig
Kan afwijken van de verwachte bedrijfsstem
Heeft acceptabele maar enigszins inconsistente structuur (gemengde opsommingstekens, ongelijke formaliteit)
Is nog steeds professioneel genoeg om te begrijpen, maar niet klaar voor investeerders of leidinggevenden.

2: Zwak (Toonproblemen beïnvloeden professionaliteit)

Het rapport:

Gebruikt vaak inconsistente toon; kan formele en informele taal combineren
Maakt gebruik van gespreks- of 'chatty'-formulering die ongepast is voor rapporten
Toont stilistische inconsistenties zoals te lange zinnen, slordige opsommingen en informele overgangen
Gebruikt een toonzetting die overkomt als marketingachtig, emotioneel of vaag
Voldoet niet goed aan de verwachte stijlgids

1: Slecht (niet geschikt voor rapportgebruik)

Het rapport:

Maakt gebruik van een sterk afwijkende toon, zijnde te casual, emotioneel, overdreven of onduidelijk.
Heeft geen consistente stijl en ontbreekt structuur
Gebruikt toon die geloofwaardigheid of professionaliteit ondermijnen
Kan slang, emoji's, dramatisatie of verhalende verhalen bevatten die ongepast zijn voor rapporten
Leest als een informele e-mail of blogpost, geen formeel rapport

Evaluatiethema's of -criteria

Algemene evaluatiedimensies die u in verschillende rubrieken kunt gebruiken. Selecteer de thema's die het meest relevant zijn voor uw use-case.

Evaluatiecriterium	Definitie	Wanneer gebruikt u	Voorbeeld van gebruikersinvoer	Verwacht antwoord
Accuracy	Informatie is feitelijk correct of gegevens zijn afkomstig van de bron van de waarheid (Q&A, gegevensophaling, rapporten).	Wanneer feitelijke juistheid essentieel is (bijvoorbeeld financiële gegevens, technische specificaties).	Vragen met verifieerbare antwoorden (bijvoorbeeld "Wat is het RTD-beleid?")	Feitelijk correcte antwoorden; alle details nauwkeurig.
Verankerdheid of trouw	Antwoord is alleen gebaseerd op verstrekte kennis of opgehaalde gegevens; geen onjuiste informatie.	Wanneer de agent KB-inhoud synthetiseert of erop verwijst.	Prompts waarvoor bewijs of bronvermeldingen zijn vereist.	Geaarde antwoorden met bronvermeldingen; geen verzonnen feiten.
Volledigheid	Antwoord heeft betrekking op alle onderdelen, secties of stappen van een taak.	Wanneer uitvoer meerdere onderdelen moet bevatten (instructies, rapportgeneratie).	Meerdelige vragen of prompts (bijvoorbeeld stappen voor onboarding).	Antwoord heeft betrekking op alle vereiste elementen.
Relevance	Informatie moet specifiek zijn voor de query van de gebruiker en het onderwerp behouden.	Wanneer het uitvoerbereik smal moet zijn (bijvoorbeeld één beleid).	Vragen met een gerichte intentie.	Beknopte, gerichte antwoorden; sluit niet-gerelateerde informatie uit.
Consistency	Agent biedt dezelfde uitvoer voor equivalente of herhaalde query's.	Evalueer altijd voor QA en bepaal herhaalbaarheid.	Herhaalde queries.	Identieke of bijna identieke antwoorden.
Duidelijkheid en samenhang	Uitvoer is duidelijk geschreven, logisch gestructureerd en gemakkelijk te begrijpen.	Altijd voor generatie; zorgt voor menselijke leesbaarheid.	Enige opdracht voor het genereren van inhoud.	Grammaticale correcte, coherente, vloeiende tekst.
Terminologie of naleving	Consistent gebruik van vereiste terminologie of formuleringsstandaarden.	Wanneer merk- of domeintaal belangrijk is (bijvoorbeeld HR, juridisch).	Opdrachten die naamgevings- of formuleringsrichtlijnen specificeren.	Juiste, compatibele voorwaarden.
Bronvermelding, traceerbaarheid of verantwoordelijkheid	Agent wijst een gebruiker correct terug naar de juiste bron.	Wanneer geloofwaardigheid of traceerbaarheid vereist is.	Query's die op bewijs gebaseerde antwoorden nodig hebben.	Bronvermeldingen komen overeen met de juiste bronnen.
Opmaak en presentatie	Voldoet aan specifieke structuur of indeling (tabellen, secties).	Wanneer de agent opgemaakte uitvoer produceert (bijvoorbeeld samenvattingen, rapporten).	Prompts waarvoor gestructureerde uitvoer is vereist.	Juiste koppen, stijlen voor opsommingstekens, indeling.
Contextbewustzijn	Antwoord is afgestemd op de persona, intentie of querycontext van de gebruiker.	Voor gepersonaliseerde of contextuele query's (bijvoorbeeld rolspecifiek).	Prompts verschillen per rol of context.	Contextspecifieke, persoonlijke antwoorden.
Hallucinatievrij	Agent mag geen feiten bedenken die verder gaan dan opgegeven gegevens.	Wanneer de brondekking beperkt of gevoelig is.	Prompts buiten het toepassingsgebied.	"Ik weet het niet" of een veilig terugvalantwoord.

Hoe evaluatiethema's te gebruiken

Evaluatiethema's opnemen in uw rubriek:

Selecteer drie tot vijf relevante thema's voor uw rubriek.
Definieer wat elk thema betekent in uw domein.
Neem de thema's op in cijferdefinities (bijvoorbeeld grade 5 moet excelleren in alle thema's).
Gebruik de thema's als checklijst bij het geven van een beoordeling door mensen.

Voor een ir-rapportrubriek geeft u bijvoorbeeld prioriteit aan:

Nauwkeurigheid (kritiek)
Volledigheid (kritiek)
Duidelijkheid en samenhang (belangrijk)
Terminologie en naleving (belangrijk)
Opmaak en presentatie (leuk om te hebben)

Woordenlijst

Hier volgen definities voor belangrijke termen die worden gebruikt in de context van rubriekverfijning in Copilot Studio Kit.

Agent

De copilot- of AI-assistent die wordt getest. In rubriekverfijning genereert de agent antwoorden die zowel AI-beoordelaars als menselijke beoordelaars evalueren.

AI-beoordeling, AI-score

De numerieke classificatie (1-5) die de AI-rechter toewijst op basis van rubriekcriteria.

AI-rationaliteit, AI-redenering

De gedetailleerde uitleg van de AI-rechter (in verfijningsmodus) waarin wordt uitgelegd waarom er een specifiek cijfer is toegewezen en welke rubriekscriteria het heeft toegepast.

Uitlijning, verkeerde uitlijning

De mate waarin de evaluatie van de AI-rechter overeenkomt met het menselijke oordeel.

Uitlijning: AI-cijfer = Menselijk cijfer (geeft aan dat rubriek werkt zoals bedoeld)
Onjuiste uitlijning: AI-cijfer ≠ Menselijke cijfer (geeft aan dat de rubriek moet worden verfijning)

Volledigheid

Een meting of het antwoord alle onderdelen van de query van de gebruiker volledig beantwoordt. Een volledig antwoord omvat elk vereist element zonder weglatingen.

Juistheid, nauwkeurigheid

Een criterium dat beoordeelt of het antwoord van de agent feitelijk juist is op basis van het verwachte of referentieantwoord, gezaghebbende kennis of door het systeem geleverde inhoud.

Gedetailleerde weergave

Een nauwkeurige interface voor het beoordelen van afzonderlijke testcases met langere antwoorden. Bevat volledige gesprekscontext en tabbladen voor "Verfijning" (AI verborgen) en "Verfijning (Volledig)" (AI zichtbaar).

Richtingsvooroordelen

Een systematisch patroon waarbij de AI-rechter consistent hoger (te lenient) of lager (te strikt) beoordeelt dan menselijke rechters. U kunt dit patroon identificeren door het aantal (AI > Human) versus (AI < Human) onjuiste uitlijningen te vergelijken.

Trouw

Vergelijkbaar met geaardheid, maar benadrukt dat het model geen nieuwe feiten fabriceert buiten wat de rubriek of opgegeven context toestaat.

De interfaceweergave voor rubriekverfijning waarin AI-cijfers en -logica naast menselijke cijfers worden weergegeven, met uitlijningsindicatoren. Gebruik dit voor het vergelijken van evaluaties en het analyseren van onjuiste uitlijningspatronen.

Generatieve antwoordtest (GA-test)

Een testtype in Copilot Studio Kit waarbij de agent reacties in natuurlijke taal genereert, met behulp van generatieve indeling, die u evalueert op basis van opgegeven validatie-instructies of een rubriek.

Goed voorbeeld, slecht voorbeeld

Echte testcases die de maker selecteert om gewenste of ongewenste antwoordpatronen te illustreren. Voorbeelden hiervan zijn de testuiting, het antwoord van de agent en de aanduiding (goed of slecht). Gebruik deze voorbeelden tijdens de verfijning van de rubriek om concrete richtlijnen te bieden aan de AI-rechter.

Groundedness

Een kwaliteitsmeting die aangeeft of een door AI gegenereerd antwoord stevig wordt ondersteund door de verstrekte broninformatie (bijvoorbeeld opgehaalde documenten, systeemberichten of gedefinieerde feiten). Een geaard antwoord introduceert geen informatie die u niet kunt traceren naar een bekende gezaghebbende bron.

Menselijk oordeel, menselijke aantekening

Een maker evalueert het antwoord van een agent, bestaande uit een score (1-5) en motivering. Menselijke uitspraken fungeren als de 'gouden standaard' waarmee u het gedrag van AI-rechters vergelijkt tijdens de verfijning van de rubriek.

Herhalen, iteratie

Eén cyclus van het rubricaverfijningsproces: uitvoeren → beoordelen → waarderen → verfijnen → opslaan → opnieuw uitvoeren. Doorgaans hebt u meerdere iteraties nodig om acceptabele uitlijning te bereiken.

LLM-rechter, AI-rechter, AI-beoordelaar

Een groot taalmodel dat het antwoord van een agent evalueert volgens een rubriek. De rechter geeft een score van 1 tot 5 en kan ook een logica geven waarin wordt uitgelegd hoe de rubriekcriteria zijn geïnterpreteerd en toegepast.

Grootte van onjuiste uitlijning

Het numerieke verschil tussen AI-beoordeling en menselijke beoordeling. Een verschil van 1 punt is een kleine onjuiste uitlijning. Een verschil van 2 of meer punten duidt op significantere problemen die verfijning vereisen.

Maker

Een gebruiker van Copilot Studio Kit die copiloten en evaluatierubrieken maakt, test en beheert. In de context van rubriekverfijning biedt de maker menselijke beoordelingen die als evaluatiestandaard dienen.

Overfitting

Wanneer beoordelingscriteria te specifiek worden voor de testcases die tijdens de verfijning worden gebruikt en niet kunnen worden gegeneraliseerd naar nieuwe, niet eerder geziene antwoorden. Vermijd overfitting door iteraties te beperken en te testen met nieuwe testcases.

Slagingsbeoordeling

Het minimum acceptabele cijfer (1-5) voor een testcase die moet worden beschouwd als geslaagd.

Testmodus (testcaseniveau): bepaalt het werkelijke geslaagde of mislukte resultaat.
Verfijningsmodus (testuitvoeringsniveau): alleen informatieve indicator; doel is uitlijning, niet doorgeven.

Redeneringskwaliteit

Een evaluatie van de vraag of het antwoord coherent denken, logische stappen, rechtvaardiging en juiste interpretatie van het probleem laat zien.

Recency (tijdelijke nauwkeurigheid)

Een criterium dat evalueert of het antwoord informatie weergeeft die chronologisch nauwkeurig of up-to-date is. Dit criterium is met name relevant voor tijdgevoelige inhoud, zoals gebeurtenissen, datums, planningen en beschikbaarheid.

Een rubriek die wordt gebruikt op het niveau van de testuitvoering, specifiek voor iteratieve rubriekverfijning. De AI biedt een cijfer en gedetailleerde uitleg. Het proces slaat niet-generatieve antwoordtesttypen over. Het doel is om het verschil tussen AI en menselijke beoordelingen te verminderen.

Relevantie

Een meting van hoe rechtstreeks en op de juiste wijze het antwoord van de agent de query van de gebruiker beantwoordt. Een antwoord is relevant als deze binnen het bereik van de vraag blijft en onnodige of afleidende informatie vermijdt.

Rubriek

Een gestructureerde set beoordelingsinstructies in natuurlijke taal die een AI-rechter gebruikt om de kwaliteit van het antwoord van een agent te evalueren. Een rubriek definieert de criteria, verwachtingen, voorbeelden en scoreschaal (1-5) die bepalen wat een 'goed' of 'slecht' antwoord is voor een specifiek domein of use-case.

Een iteratief proces voor het verbeteren van de duidelijkheid, specificiteit en effectiviteit van een rubriek op basis van waargenomen uitlijning of onjuiste uitlijning tussen menselijk oordeel en AI-oordeel. Verfijning omvat het bijwerken van instructies, het toevoegen van voorbeelden en het opnieuw uitvoeren van tests totdat het evaluatiegedrag overeenkomt met de verwachtingen van het domein.

De interfaceweergave voor rubriekverfijning die AI-cijfers en -logica verbergt om vooroordelen te voorkomen wanneer u menselijke beoordelingen geeft. Gebruik deze weergave voor de eerste revisie en onbevooroordeelde beoordeling.

Testmodus (rubriek voor testcaseniveau)

Gebruik een rubriek op het niveau van de individuele testcase voor regelmatige kwaliteitscontrole. AI biedt alleen cijfers (geen logica) voor kostenefficiëntie. Slagen of zakken wordt bepaald door of de beoordeling groter is dan of gelijk is aan de drempelwaarde van de beoordeling om te slagen.

Testgeval

Een afzonderlijke test in een testset, bestaande uit een testuiting (gebruikersinvoer), verwacht gedrag en validatiecriteria (standaardvalidatie of classificatie op basis van rubriek).

Proefrit

Eén uitvoering van een testset, waarbij resultaten worden geproduceerd die agentreacties, AI-cijfers, menselijke aantekeningen (in verfijningsmodus) en uitlijningsindicatoren bevatten.

Niveausjabloon voor testuitvoering opheffen

Wanneer u een rubriek selecteert op het niveau van de testuitvoering, is dit van toepassing op alle testcases van Generatieve antwoorden in die uitvoering, waarbij alle rubrieken worden overschreven die zijn toegewezen op het niveau van de afzonderlijke testcase.

Testset

Een verzameling van een of meer testcases die samen worden uitgevoerd. In de verfijningsmodus is dezelfde rubriek van toepassing op alle testcases van Generative Answer in de set.

Validatie-instructies

Op tekst gebaseerde instructies die worden gebruikt in standaard Ative Answer-tests om aan te geven wat een antwoord acceptabel maakt. Wederzijds exclusief met classificatie op basis van rubrieken. Wanneer u een rubriek selecteert, worden validatie-instructies verborgen of genegeerd.

Startuitvoering: Testuitvoering configureren met rubric (testuitvoeringsniveau) plus het doorgegeven cijfer; Uitvoeren.
Beoordeling: Open standaard verfijningsweergave (AI verborgen).
Cijfer: Geef menselijke cijfers (1-5) en redenering voor alle testgevallen.
Voorbeelden markeren: Gemarkeerd als voorbeeld voor 6-10 positieve of negatieve gevallen.
Analyseren: overschakelen naar volledige verfijningsweergave; ai-cijfers en -logica beoordelen; uitlijning berekenen.
Verfijnen: Selecteer Rubriek verfijnen; AI analyseert patronen; werkt rubriek bij.
Opslaan: Opslaan (overschrijven) of Opslaan als (nieuwe versie).
Opnieuw uitvoeren: herhaalde testuitvoering; Voer uit met verfijnde criteria.
Herhalen: Ga door totdat de uitlijning 80-90% of hoger is.

Aspect	Testmodus	Verfijningsmodus
Rubrieksniveau	Testgeval	Proefrit
Doel	Kwaliteitscontrole	Rubriekverbetering
AI-uitvoer	Alleen cijfers geven	Cijfer + rationale
Kosten	Lower	Hoger
Cijfer doorgeven	Bepaalt of het geslaagd of mislukt is	Alleen informatie
doel	Antwoorden van lage kwaliteit identificeren	AI-menselijke misalignment minimaliseren
Niet-GA-tests	Normaal uitvoeren	Overgeslagen
Menselijke beoordeling	Niet vereist	Vereist voor verfijning

Snelle referentie: Selectiegids voor graden

Slagingsbeoordeling	Wanneer gebruikt u	Verwachting voor slagingspercentage
5 (voorbeeld)	Kritieke communicatie (IR, leidinggevend, juridisch)	Lage slagingspercentage; alleen de beste antwoorden slagen
4 (sterk)	Professionele zakelijke communicatie	Gemiddeld slagingspercentage; hoge kwaliteit van antwoorden vereist voor slagen
3 (acceptabel)	Interne hulpprogramma's, minimale functionaliteit	Hoge slagingspercentage; functionele antwoorden om te slagen
2 (zwak)	Erg lage lat (zelden toepasbaar)	Zeer hoog slagingspercentage
1 (Moet worden verbeterd)	Bijna nooit gebruikt	Bijna alle responsen slagen

Aanbeveling: Standaard op slagingspercentage 5 voor verfijningsmodus. Pas aan op 4 of 5 voor de testmodus op basis van uw kwaliteitsnormen.

Feedback

Is deze pagina nuttig?

Last updated on 2026-03-24

Naslaggids voor rubrieken

Cijferschaaldefinities

Formule voor uitlijningsberekening

Afzonderlijke testcase-uitlijning

Uitlijningsberekening voor afzonderlijke testcases

Analyse van richtingsafwijking

Voorbeeldrubriek 1: Rapport Investeerdersrelaties

Hoe een goed antwoord eruitziet

Beoordelingsdefinities

5: Uitstekende of professionele IR-kwaliteit

4: Sterke of hoge kwaliteit

3: Voldoende of voldoet aan de minimale verwachtingen voor IR

2: Zwak of gedeeltelijk geschikt

1: Slecht of niet geschikt voor IR-gebruik

Voorbeeldrubriek 2: Zakelijke samenvattingen of het genereren van statusrapporten

Hoe een goed antwoord eruitziet

Beoordelingsdefinities

5: Uitstekend (consistent, professioneel, in lijn met het merk)

4: Sterk (kleine variaties maar hoge kwaliteit)

3: Voldoende (acceptabel maar niet volledig consistent)

2: Zwak (Toonproblemen beïnvloeden professionaliteit)

1: Slecht (niet geschikt voor rapportgebruik)

Evaluatiethema's of -criteria

Hoe evaluatiethema's te gebruiken

Woordenlijst

Agent

AI-beoordeling, AI-score

AI-rationaliteit, AI-redenering

Uitlijning, verkeerde uitlijning

Volledigheid

Juistheid, nauwkeurigheid

Gedetailleerde weergave

Richtingsvooroordelen

Trouw

Volledige verfijningsweergave

Generatieve antwoordtest (GA-test)

Goed voorbeeld, slecht voorbeeld

Groundedness

Menselijk oordeel, menselijke aantekening

Herhalen, iteratie

LLM-rechter, AI-rechter, AI-beoordelaar

Grootte van onjuiste uitlijning

Maker

Overfitting

Slagingsbeoordeling

Redeneringskwaliteit

Recency (tijdelijke nauwkeurigheid)

Verfijningsmodus (rubriek voor testuitvoeringsniveau)

Relevantie

Rubriek

Rubriekverfijning

Standaard verfijningsweergave

Testmodus (rubriek voor testcaseniveau)

Testgeval

Proefrit

Niveausjabloon voor testuitvoering opheffen

Testset

Validatie-instructies

Snelzoekgids: Stappen voor verfijningswerkstroom

Snelzoekgids: testmodus versus verfijningsmodus

Snelle referentie: Selectiegids voor graden

Feedback

Aanvullende resources