組み込みのエバリュエーターリファレンス

Important

この記事でマークされている項目 (プレビュー) は、現在パブリックプレビュー段階です。このプレビューはサービスレベルアグリーメントなしで提供されており、運用環境のワークロードにはお勧めしません。特定の機能がサポートされていないか、機能が制限されている可能性があります。詳細については、「Microsoft Azure プレビューの使用条件を参照してください。

Microsoft Foundry には、開発ライフサイクル全体にわたる AI 応答の品質、安全性、信頼性を評価するためのエバリュエーターが組み込まれています。このリファレンスでは、使用可能なすべてのエバリュエーター、その目的、ユースケースに適したエバリュエーターの選択に関するガイダンスを示します。また、特定の評価基準に合わせてカスタマイズされたカスタムエバリュエーターを作成することもできます。

汎用エバリュエーター

Evaluator	Purpose
Coherence	論理的な一貫性と応答のフローを測定します。
Fluency	自然言語の品質と読みやすさを測定します。

詳細については、「汎用エバリュエーター」を参照してください。

テキスト類似性エバリュエーター

Evaluator	Purpose
Similarity	AI 支援テキスト類似度測定。
F1 Score	トークンの精度と再現率の調和平均は、応答とグラウンド・トゥルースの間で重複します。
BLEU	翻訳品質測定の二か国語評価アンダースティスコアは、応答と地上の真理の間で n グラム単位で重複します。
GLEU	文レベル評価のバリアント Google-BLEU、応答とグラウンドトゥルースの間でnグラムが重なり合っています。
ROUGE	Recall-Oriented ギスティング評価のアンダースタディの測定値は、応答とグラウンドトゥルースの間でnグラムが重なります。
METEOR	明示的順序付けメジャーによる翻訳評価のメトリックは、応答と地上の真理値の間で n グラム単位で重複しています。

詳細については、「テキスト類似性エバリュエーター」を参照してください。

RAG evaluators

Evaluator	Purpose
Retrieval	システムが関連情報を効果的に取得する方法を測定します。
Document Retrieval	地上の真理を指定して、取得結果の精度を測定します。
Groundedness	取得したコンテキストでの応答の接地方法を測定します。モデルベースの判定を使用して、1 から 5 のスコアを返します。
Groundedness Pro (プレビュー)	Azure AI Content Safety サービスを使用して、取得したコンテキストで応答が接地されているかどうかを測定します。モデルのデプロイを必要とせずに、バイナリの成功/失敗を返します。
Relevance	クエリに対する応答の関連性を測定します。
応答の完全性 (プレビュー)	地上の真理に関して、どの程度応答が完了しているか (重要な情報が欠落していない) に対する対策。

詳細については、「取得拡張生成 (RAG) エバリュエーター」を参照してください。

リスクと安全性の評価者

Evaluator	Purpose
嫌悪と不公平	偏った、差別的、または嫌悪的なコンテンツを識別します。
Sexual	不適切な性的コンテンツを識別します。
Violence	激しいコンテンツまたは煽動を検出します。
Self-Harm	自傷行為を助長または説明するコンテンツを検出します。
Protected Materials	著作権で保護されたコンテンツの不正使用を検出します。
間接攻撃 (XPIA)	取得したコンテキストを通じて挿入された間接的な脱獄の試行に対して応答が落ちたかどうかを測定します。
Code Vulnerability	生成されたコードのセキュリティの問題を識別します。
Ungrounded Attributes	ユーザーの操作から推論された、製造された情報または幻覚的な情報を検出します。
禁止されたアクション (プレビュー)	明示的に許可されていないアクションに違反する動作に関与する AI エージェントの能力を測定します。
機密データ漏洩 (プレビュー)	機密情報の公開に対する AI エージェントの脆弱性を測定します。

詳細については、リスクと安全性エバリュエーターに関するページを参照してください。

Agent evaluators

Evaluator	Purpose
タスクの準拠 (プレビュー)	システム命令に従って、特定されたタスクにエージェントが従うかどうかを測定します。
タスクの完了 (プレビュー)	エージェントが要求されたタスクをエンドツーエンドで正常に完了したかどうかを測定します。
意図の解決 (プレビュー)	エージェントがユーザーの意図を識別して対処する正確な方法を測定します。
タスクナビゲーションの効率	エージェントの一連の手順が、効率を測定するための最適なパスまたは予想されるパスと一致するかどうかを判断します。
ツール呼び出しの精度	選択、パラメーターの正確性、効率など、ツール呼び出しの全体的な品質を測定します。
Tool Selection	エージェントがタスクに最適で効率的なツールを選択したかどうかを測定します。
ツール入力の精度	すべてのツール呼び出しパラメーターが、接地、型、形式、完全性、および適切さを含む厳密な基準で正しいことを検証します。
ツールの出力使用率	エージェントが応答と後続の呼び出しでツール出力をコンテキストに応じて正しく解釈して使用するかどうかを測定します。
ツール呼び出しの成功	すべてのツール呼び出しが技術的なエラーなしで正常に実行されたかどうかを評価します。

詳細については、「エージェントエバリュエーター」を参照してください。

Azure OpenAI の採点者

Evaluator	Purpose
Model Labeler	カスタムガイドラインとラベルを使用してコンテンツを分類します。
String Checker	柔軟なテキスト検証とパターンマッチングを実行します。
Text Similarity	テキストの品質を評価するか、セマンティックの近さを判断します。
Model Scorer	カスタムガイドラインに基づいてコンテンツの数値スコア (カスタマイズされた範囲) を生成します。

詳細については、「Azure OpenAI Graders を参照してください。

カスタムエバリュエーター (プレビュー)

組み込みのエバリュエーターに加えて、特定の評価基準に合わせて調整されたカスタムエバリュエーターを作成できます。カスタムエバリュエーターを使用すると、ビジネス要件とアプリケーション固有のニーズに合わせて、一意のスコア付けロジック、検証規則、品質メトリックを定義できます。

詳細については、「カスタムエバリュエーター」を参照してください。

Combining evaluators

包括的な品質評価を行う場合は、複数のエバリュエーターを組み合わせます。

RAG アプリケーション: 取得 + 接地 + 関連性 + コンテンツの安全性
エージェントアプリケーション: ツール呼び出しの精度 + タスクの準拠 + 意図の解決 + コンテンツの安全性
翻訳アプリケーション: BLEU + METEOR + 流暢 + コヒーレンス
すべてのアプリケーション: 責任ある AI プラクティスに対してリスクと安全性の評価者 (ヘイトアンドアンフェア、性的、暴力、Self-Harm) を追加する

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-04-30