Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Utilisez des évaluateurs de cohérence et de fluidité pour mesurer la qualité d’écriture du texte généré par l’IA, indépendamment de l’exactitude factuelle. Le texte généré par l’IA peut manquer de flux logique ou de qualité grammaticale au-delà de la justesse minimale. Ces évaluateurs présentent systématiquement ces lacunes.
Coherence
L’évaluateur de cohérence mesure la présentation logique et ordonnée des idées dans une réponse, ce qui permet au lecteur de suivre et de comprendre facilement l’apprentissage de la pensée de l’écrivain. Une réponse cohérente traite directement de la question avec des liens clairs entre les phrases et les paragraphes, en utilisant des transitions appropriées et une séquence logique d’idées. Des scores plus élevés signifient une meilleure cohérence.
Fluency
L’évaluateur de la fluidité mesure l’efficacité et la clarté de la communication écrite. Cette mesure se concentre sur la précision grammaticale, la plage de vocabulaire, la complexité des phrases, la cohérence et la lisibilité globale. Il évalue la façon dont les idées sont transmises en douceur et comment le lecteur peut comprendre facilement le texte.
Configurer et exécuter des évaluateurs
Les évaluateurs à usage général évaluent la qualité d’écriture du texte généré par l’IA indépendamment des cas d’usage spécifiques. Utilisez la cohérence lorsque le flux logique et l’argument sont importants , par exemple, dans la réponse aux questions ou la synthèse. Utilisez la fluidité lorsque la qualité grammaticale et la lisibilité sont indépendantes du contenu. Exécutez les deux évaluateurs ensemble pour obtenir une image complète de la qualité de l’écriture.
Pour les évaluateurs LLM-as-juge, vous pouvez utiliser Azure raisonnement OpenAI ou OpenAI et des modèles de non-raisonnement pour le juge LLM. Pour obtenir le meilleur équilibre des performances et des coûts, utilisez gpt-5-mini.
Examples:
| Evaluator | Ce qu’il mesure | Required inputs | Required parameters |
|---|---|---|---|
builtin.coherence |
Flux logique et organisation des idées |
query, response |
deployment_name |
builtin.fluency |
Précision grammaticale et lisibilité | response |
deployment_name |
Example input
Votre jeu de données de test doit contenir les champs référencés dans vos mappages de données :
{"query": "What are the benefits of renewable energy?", "response": "Renewable energy reduces carbon emissions, lowers long-term costs, and provides energy independence."}
{"query": "How does photosynthesis work?", "response": "Plants convert sunlight, water, and carbon dioxide into glucose and oxygen through chlorophyll in their leaves."}
Configuration example
Syntaxe de mappage des données :
-
{{item.field_name}}référence les champs de votre jeu de données de test (par exemple).{{item.query}} -
{{sample.output_text}}référence le texte de réponse généré ou récupéré pendant l’évaluation. Utilisez-la lors de l’évaluation avec une cible de modèle ou une cible d’agent.
testing_criteria = [
{
"type": "azure_ai_evaluator",
"name": "coherence",
"evaluator_name": "builtin.coherence",
"initialization_parameters": {"deployment_name": model_deployment},
"data_mapping": {"query": "{{item.query}}", "response": "{{item.response}}"},
},
{
"type": "azure_ai_evaluator",
"name": "fluency",
"evaluator_name": "builtin.fluency",
"initialization_parameters": {"deployment_name": model_deployment},
"data_mapping": {"response": "{{item.response}}"},
},
]
Pour plus d’informations sur l’exécution des évaluations et la configuration des sources de données, consultez Exécuter des évaluations à partir du Kit de développement logiciel (SDK) pour plus d’informations sur l’exécution des évaluations et la configuration des sources de
Example output
Ces évaluateurs retournent des scores sur une échelle Likert de 1 à 5 (1 = très pauvre, 5 = excellent). Le seuil de passage par défaut est 3. Les scores au-dessus ou au-dessus du seuil sont considérés comme passants. Champs de sortie clés :
{
"type": "azure_ai_evaluator",
"name": "Coherence",
"metric": "coherence",
"score": 4,
"label": "pass",
"reason": "The response directly addresses the question with clear, logical connections between ideas.",
"threshold": 3,
"passed": true
}
Note
Ces évaluateurs utilisent le scoring LLM-as-juge et entraînent des coûts d’inférence de modèle par appel d’évaluation. La fiabilité du scoring peut varier pour les réponses très courtes (sous environ 20 jetons). Les deux évaluateurs prennent actuellement en charge les réponses en langue anglaise.