次の方法で共有


汎用エバリュエーター

コヒーレンスと流暢なエバリュエーターを使用して、事実の正確性に関係なく、AI によって生成されたテキストの書き込みの品質を測定します。 AI によって生成されたテキストには、最小の正確性を超えた論理的なフローや文法の品質が不足している可能性があります。これらのエバリュエーターは、これらのギャップを体系的に表面化します。

一貫性

コヒーレンス エバリュエーターは、応答でアイデアの論理的かつ順序的なプレゼンテーションを測定します。これにより、読者はライターの思考のトレーニングに簡単に従って理解できます。 一貫性のある応答は、適切な遷移と論理的な一連のアイデアを使用して、文と段落の間の明確なつながりを持つ質問に直接対処します。 スコアが高いほど、一貫性が向上します。

流暢性

流暢性エバリュエーターは、書かれたコミュニケーションの有効性と明確さを測定します。 このメジャーでは、文法の精度、ボキャブラリ範囲、文の複雑さ、一貫性、および全体的な読みやすさに重点を置いています。 これは、アイデアがどれだけスムーズに伝わるか、および読者がテキストをどれだけ簡単に理解できるかを評価します。

エバリュエーターの構成と実行

汎用エバリュエーターは、特定のユース ケースに関係なく、AI によって生成されたテキストの書き込みの品質を評価します。 論理的なフローと引数付けの問題 (たとえば、問題の回答や要約) の場合は、一貫性を使用します。 文法の品質と読みやすさがコンテンツに依存しない場合は、流暢さを使用します。 両方のエバリュエーターを一緒に実行して、書き込みの品質を完全に把握します。

ジャッジとしての LLM エバリュエーターの場合、LLM ジャッジには Azure OpenAI または OpenAI の推論モデルと非推論モデルを使用できます。 パフォーマンスとコストのバランスを最大限に高めるには、 gpt-5-miniを使用します。

例 :

エバリュエータ 測定対象 必要な入力 必須のパラメーター
builtin.coherence 論理的な流れとアイデアの編成 queryresponse deployment_name
builtin.fluency 文法の精度と読みやすさ response deployment_name

入力の例

テスト データセットには、データ マッピングで参照されるフィールドが含まれている必要があります。

{"query": "What are the benefits of renewable energy?", "response": "Renewable energy reduces carbon emissions, lowers long-term costs, and provides energy independence."}
{"query": "How does photosynthesis work?", "response": "Plants convert sunlight, water, and carbon dioxide into glucose and oxygen through chlorophyll in their leaves."}

構成の例

データ マッピング構文:

  • {{item.field_name}} は、テスト データセット (たとえば、 {{item.query}}) のフィールドを参照します。
  • {{sample.output_text}} は、評価中に生成または取得された応答テキストを参照します。 これは、モデル ターゲットまたはエージェント ターゲットで評価する場合に使用します。
testing_criteria = [
    {
        "type": "azure_ai_evaluator",
        "name": "coherence",
        "evaluator_name": "builtin.coherence",
        "initialization_parameters": {"deployment_name": model_deployment},
        "data_mapping": {"query": "{{item.query}}", "response": "{{item.response}}"},
    },
    {
        "type": "azure_ai_evaluator",
        "name": "fluency",
        "evaluator_name": "builtin.fluency",
        "initialization_parameters": {"deployment_name": model_deployment},
        "data_mapping": {"response": "{{item.response}}"},
    },
]

評価の実行とデータ ソースの構成の詳細については、SDK からの評価の実行に関するページを参照してください。

サンプルの出力

これらのエバリュエーターは、1 から 5 の Likert スケールでスコアを返します (1 = 非常に貧弱、5 = 優れています)。 既定のパスしきい値は 3 です。 しきい値以上のスコアは合格と見なされます。 主要な出力フィールド:

{
    "type": "azure_ai_evaluator",
    "name": "Coherence",
    "metric": "coherence",
    "score": 4,
    "label": "pass",
    "reason": "The response directly addresses the question with clear, logical connections between ideas.",
    "threshold": 3,
    "passed": true
}

これらのエバリュエーターは、LLM-as-judge スコアリングを使用し、評価呼び出しごとにモデル推論コストが発生します。 スコアリングの信頼性は、応答が非常に短い場合 (約 20 トークン未満) によって異なる場合があります。 両方のエバリュエーターは現在、英語の応答をサポートしています。