Évaluateurs à usage général

Utilisez des évaluateurs de cohérence et de fluidité pour mesurer la qualité d’écriture du texte généré par l’IA, indépendamment de l’exactitude factuelle. Le texte généré par l’IA peut manquer de flux logique ou de qualité grammaticale au-delà de la justesse minimale. Ces évaluateurs présentent systématiquement ces lacunes.

Coherence

L’évaluateur de cohérence mesure la présentation logique et ordonnée des idées dans une réponse, ce qui permet au lecteur de suivre et de comprendre facilement l’apprentissage de la pensée de l’écrivain. Une réponse cohérente traite directement de la question avec des liens clairs entre les phrases et les paragraphes, en utilisant des transitions appropriées et une séquence logique d’idées. Des scores plus élevés signifient une meilleure cohérence.

Fluency

L’évaluateur de la fluidité mesure l’efficacité et la clarté de la communication écrite. Cette mesure se concentre sur la précision grammaticale, la plage de vocabulaire, la complexité des phrases, la cohérence et la lisibilité globale. Il évalue la façon dont les idées sont transmises en douceur et comment le lecteur peut comprendre facilement le texte.

Configurer et exécuter des évaluateurs

Les évaluateurs à usage général évaluent la qualité d’écriture du texte généré par l’IA indépendamment des cas d’usage spécifiques. Utilisez la cohérence lorsque le flux logique et l’argument sont importants , par exemple, dans la réponse aux questions ou la synthèse. Utilisez la fluidité lorsque la qualité grammaticale et la lisibilité sont indépendantes du contenu. Exécutez les deux évaluateurs ensemble pour obtenir une image complète de la qualité de l’écriture.

Pour les évaluateurs LLM-as-juge, vous pouvez utiliser Azure raisonnement OpenAI ou OpenAI et des modèles de non-raisonnement pour le juge LLM. Pour obtenir le meilleur équilibre des performances et des coûts, utilisez gpt-5-mini.

Examples:

Evaluator Ce qu’il mesure Required inputs Required parameters
builtin.coherence Flux logique et organisation des idées query, response deployment_name
builtin.fluency Précision grammaticale et lisibilité response deployment_name

Example input

Votre jeu de données de test doit contenir les champs référencés dans vos mappages de données :

{"query": "What are the benefits of renewable energy?", "response": "Renewable energy reduces carbon emissions, lowers long-term costs, and provides energy independence."}
{"query": "How does photosynthesis work?", "response": "Plants convert sunlight, water, and carbon dioxide into glucose and oxygen through chlorophyll in their leaves."}

Configuration example

Syntaxe de mappage des données :

  • {{item.field_name}}référence les champs de votre jeu de données de test (par exemple). {{item.query}}
  • {{sample.output_text}} référence le texte de réponse généré ou récupéré pendant l’évaluation. Utilisez-la lors de l’évaluation avec une cible de modèle ou une cible d’agent.
testing_criteria = [
    {
        "type": "azure_ai_evaluator",
        "name": "coherence",
        "evaluator_name": "builtin.coherence",
        "initialization_parameters": {"deployment_name": model_deployment},
        "data_mapping": {"query": "{{item.query}}", "response": "{{item.response}}"},
    },
    {
        "type": "azure_ai_evaluator",
        "name": "fluency",
        "evaluator_name": "builtin.fluency",
        "initialization_parameters": {"deployment_name": model_deployment},
        "data_mapping": {"response": "{{item.response}}"},
    },
]

Pour plus d’informations sur l’exécution des évaluations et la configuration des sources de données, consultez Exécuter des évaluations à partir du Kit de développement logiciel (SDK) pour plus d’informations sur l’exécution des évaluations et la configuration des sources de

Example output

Ces évaluateurs retournent des scores sur une échelle Likert de 1 à 5 (1 = très pauvre, 5 = excellent). Le seuil de passage par défaut est 3. Les scores au-dessus ou au-dessus du seuil sont considérés comme passants. Champs de sortie clés :

{
    "type": "azure_ai_evaluator",
    "name": "Coherence",
    "metric": "coherence",
    "score": 4,
    "label": "pass",
    "reason": "The response directly addresses the question with clear, logical connections between ideas.",
    "threshold": 3,
    "passed": true
}

Note

Ces évaluateurs utilisent le scoring LLM-as-juge et entraînent des coûts d’inférence de modèle par appel d’évaluation. La fiabilité du scoring peut varier pour les réponses très courtes (sous environ 20 jetons). Les deux évaluateurs prennent actuellement en charge les réponses en langue anglaise.