Utvärderare för generell användning

Använd konsekvens- och fluency-utvärderare för att mäta skrivkvaliteten för AI-genererad text, oberoende av faktisk korrekthet. AI-genererad text kan sakna logiskt flöde eller grammatisk kvalitet utöver minsta korrekthet – dessa utvärderare ytbehandlar dessa luckor systematiskt.

Coherence

Konsekvensutvärderingen mäter den logiska och ordnade presentationen av idéer i ett svar, vilket gör det möjligt för läsaren att enkelt följa och förstå författarens tanketåg. Ett sammanhängande svar tar direkt upp frågan med tydliga kopplingar mellan meningar och stycken, med lämpliga övergångar och en logisk sekvens av idéer. Högre poäng innebär bättre sammanhållning.

Fluency

Fluency-utvärderaren mäter effektiviteten och tydligheten i skriftlig kommunikation. Det här måttet fokuserar på grammatisk noggrannhet, vokabulärintervall, meningskomplexitet, enhetlighet och övergripande läsbarhet. Den utvärderar hur smidigt idéer förmedlas och hur enkelt läsaren kan förstå texten.

Konfigurera och köra utvärderare

Utvärderare för generell användning utvärderar skrivkvaliteten för AI-genererad text oberoende av specifika användningsfall. Använd enhetlighet när logiskt flöde och argumentation spelar roll – till exempel vid frågesvar eller sammanfattning. Använd flyt när grammatisk kvalitet och läsbarhet är oberoende av innehåll. Kör båda utvärderarna tillsammans för en fullständig bild av skrivkvaliteten.

För LLM-som-domare-utvärderare kan du använda Azure OpenAI- eller OpenAI-resonemangs- och icke-resonemangsmodeller för LLM-domaren. Använd för bästa möjliga balans mellan prestanda och kostnad gpt-5-mini.

Examples:

Evaluator Vad den mäter Required inputs Required parameters
builtin.coherence Logiskt flöde och organisation av idéer query, response deployment_name
builtin.fluency Grammatisk noggrannhet och läsbarhet response deployment_name

Example input

Testdatauppsättningen bör innehålla de fält som refereras till i dina datamappningar:

{"query": "What are the benefits of renewable energy?", "response": "Renewable energy reduces carbon emissions, lowers long-term costs, and provides energy independence."}
{"query": "How does photosynthesis work?", "response": "Plants convert sunlight, water, and carbon dioxide into glucose and oxygen through chlorophyll in their leaves."}

Configuration example

Syntax för datamappning:

  • {{item.field_name}} refererar till fält från testdatauppsättningen (till exempel {{item.query}}).
  • {{sample.output_text}} refererar till svarstext som genererats eller hämtats under utvärderingen. Använd detta när du utvärderar med ett modellmål eller agentmål.
testing_criteria = [
    {
        "type": "azure_ai_evaluator",
        "name": "coherence",
        "evaluator_name": "builtin.coherence",
        "initialization_parameters": {"deployment_name": model_deployment},
        "data_mapping": {"query": "{{item.query}}", "response": "{{item.response}}"},
    },
    {
        "type": "azure_ai_evaluator",
        "name": "fluency",
        "evaluator_name": "builtin.fluency",
        "initialization_parameters": {"deployment_name": model_deployment},
        "data_mapping": {"response": "{{item.response}}"},
    },
]

Mer information om hur du kör utvärderingar och konfiguration av datakällor finns i Köra utvärderingar från SDK :t.

Example output

Dessa utvärderare returnerar poäng på en 1-5 Likert-skala (1 = mycket dålig, 5 = utmärkt). Standardtröskelvärdet för passering är 3. Poäng vid eller över tröskelvärdet anses passera. Nyckelutdatafält:

{
    "type": "azure_ai_evaluator",
    "name": "Coherence",
    "metric": "coherence",
    "score": 4,
    "label": "pass",
    "reason": "The response directly addresses the question with clear, logical connections between ideas.",
    "threshold": 3,
    "passed": true
}

Note

Dessa utvärderare använder LLM-as-judge-bedömning och medför modellinferenskostnader per utvärderingsanrop. Bedömningstillförlitligheten kan variera för mycket korta svar (under cirka 20 token). Båda utvärderarna stöder för närvarande engelskspråkiga svar.