Evaluators voor algemeen gebruik

Gebruik coherentie en fluency evaluators om de schrijfkwaliteit van door AI gegenereerde tekst te meten, onafhankelijk van feitelijke juistheid. Door AI gegenereerde tekst kan geen logische stroom of grammaticale kwaliteit hebben, behalve minimale juistheid. Deze evaluators maken systematisch gebruik van die hiaten.

Coherence

De coherentie-evaluator meet de logische en ordelijke presentatie van ideeën in een antwoord, waardoor de lezer de gedachtetrein van de schrijver gemakkelijk kan volgen en begrijpen. Een coherent antwoord richt zich rechtstreeks op de vraag met duidelijke verbindingen tussen zinnen en alinea's, met behulp van de juiste overgangen en een logische reeks ideeën. Hogere scores betekenen een betere samenhang.

Fluency

De fluency evaluator meet de effectiviteit en duidelijkheid van geschreven communicatie. Deze meting richt zich op grammaticale nauwkeurigheid, vocabulaire bereik, zincomplexiteit, samenhang en algehele leesbaarheid. Het beoordeelt hoe soepel ideeën worden overgebracht en hoe gemakkelijk de lezer de tekst kan begrijpen.

Evaluators configureren en uitvoeren

Evaluators voor algemeen gebruik beoordelen de schrijfkwaliteit van door AI gegenereerde tekst, onafhankelijk van specifieke gebruiksvoorbeelden. Gebruik coherentie bij logische stroom en argumentatie, bijvoorbeeld bij het beantwoorden of samenvatten van vragen. Gebruik vloeiendheid bij grammaticale kwaliteit en leesbaarheid, onafhankelijk van inhoud. Voer beide evaluators samen uit voor een volledig beeld van de schrijfkwaliteit.

Voor LLM-as-judge-evaluators kunt u Azure OpenAI- of OpenAI-redeneringsmodellen en niet-redeneringsmodellen voor de LLM-rechter gebruiken. Gebruik voor de beste balans tussen prestaties en kosten gpt-5-mini.

Examples:

Evaluator	Wat het meet	Required inputs	Required parameters
`builtin.coherence`	Logische stroom en organisatie van ideeën	`query`, `response`	`deployment_name`
`builtin.fluency`	Grammaticale nauwkeurigheid en leesbaarheid	`response`	`deployment_name`

Example input

Uw testgegevensset moet de velden bevatten waarnaar wordt verwezen in uw gegevenstoewijzingen:

{"query": "What are the benefits of renewable energy?", "response": "Renewable energy reduces carbon emissions, lowers long-term costs, and provides energy independence."}
{"query": "How does photosynthesis work?", "response": "Plants convert sunlight, water, and carbon dioxide into glucose and oxygen through chlorophyll in their leaves."}

Configuration example

Syntaxis van gegevenstoewijzing:

{{item.field_name}} verwijst naar velden uit uw testgegevensset (bijvoorbeeld {{item.query}}).
{{sample.output_text}} verwijst naar antwoordtekst die is gegenereerd of opgehaald tijdens de evaluatie. Gebruik dit bij het evalueren met een modeldoel of agentdoel.

testing_criteria = [
    {
        "type": "azure_ai_evaluator",
        "name": "coherence",
        "evaluator_name": "builtin.coherence",
        "initialization_parameters": {"deployment_name": model_deployment},
        "data_mapping": {"query": "{{item.query}}", "response": "{{item.response}}"},
    },
    {
        "type": "azure_ai_evaluator",
        "name": "fluency",
        "evaluator_name": "builtin.fluency",
        "initialization_parameters": {"deployment_name": model_deployment},
        "data_mapping": {"response": "{{item.response}}"},
    },
]

Zie Evaluaties uitvoeren vanuit de SDK voor meer informatie over het uitvoeren van evaluaties en het configureren van gegevensbronnen.

Example output

Deze evaluators retourneren scores op een 1-5 Likert-schaal (1 = zeer slecht, 5 = uitstekend). De standaarddrempelwaarde is 3. Scores op of boven de drempelwaarde worden beschouwd als doorgeven. Sleuteluitvoervelden:

{
    "type": "azure_ai_evaluator",
    "name": "Coherence",
    "metric": "coherence",
    "score": 4,
    "label": "pass",
    "reason": "The response directly addresses the question with clear, logical connections between ideas.",
    "threshold": 3,
    "passed": true
}

Note

Deze evaluators maken gebruik van LLM-as-judge-score en kosten voor modeldeductie per evaluatieoproep. Scorebetrouwbaarheid kan variëren voor zeer korte antwoorden (onder ongeveer 20 tokens). Beide evaluators ondersteunen momenteel Engelstalige antwoorden.

Feedback

Is deze pagina nuttig?

Last updated on 2026-04-30