Important
この記事でマークされている項目 (プレビュー) は、現在パブリック プレビュー段階です。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境のワークロードにはお勧めしません。 特定の機能がサポートされていないか、機能が制限されている可能性があります。 詳細については、「Microsoft Azure プレビューの使用条件を参照してください。
Microsoft Foundry には、開発ライフサイクル全体にわたる AI 応答の品質、安全性、信頼性を評価するためのエバリュエーターが組み込まれています。 このリファレンスでは、使用可能なすべてのエバリュエーター、その目的、ユース ケースに適したエバリュエーターの選択に関するガイダンスを示します。 また、特定の評価基準に合わせてカスタマイズされた カスタム エバリュエーター を作成することもできます。
汎用エバリュエーター
| Evaluator | Purpose |
|---|---|
| Coherence | 論理的な一貫性と応答のフローを測定します。 |
| Fluency | 自然言語の品質と読みやすさを測定します。 |
詳細については、「 汎用エバリュエーター」を参照してください。
テキスト類似性エバリュエーター
| Evaluator | Purpose |
|---|---|
| Similarity | AI 支援テキスト類似度測定。 |
| F1 Score | トークンの精度と再現率の調和平均は、応答とグラウンド・トゥルースの間で重複します。 |
| BLEU | 翻訳品質測定の二か国語評価アンダースティ スコアは、応答と地上の真理の間で n グラム単位で重複します。 |
| GLEU | 文レベル評価のバリアント Google-BLEU、応答とグラウンドトゥルースの間でnグラムが重なり合っています。 |
| ROUGE | Recall-Oriented ギスティング評価のアンダースタディの測定値は、応答とグラウンドトゥルースの間でnグラムが重なります。 |
| METEOR | 明示的順序付けメジャーによる翻訳評価のメトリックは、応答と地上の真理値の間で n グラム単位で重複しています。 |
詳細については、「 テキスト類似性エバリュエーター」を参照してください。
RAG evaluators
| Evaluator | Purpose |
|---|---|
| Retrieval | システムが関連情報を効果的に取得する方法を測定します。 |
| Document Retrieval | 地上の真理を指定して、取得結果の精度を測定します。 |
| Groundedness | 取得したコンテキストでの応答の接地方法を測定します。 モデルベースの判定を使用して、1 から 5 のスコアを返します。 |
| Groundedness Pro (プレビュー) | Azure AI Content Safety サービスを使用して、取得したコンテキストで応答が接地されているかどうかを測定します。 モデルのデプロイを必要とせずに、バイナリ の成功/失敗を返します。 |
| Relevance | クエリに対する応答の関連性を測定します。 |
| 応答の完全性 (プレビュー) | 地上の真理に関して、どの程度応答が完了しているか (重要な情報が欠落していない) に対する対策。 |
詳細については、「 取得拡張生成 (RAG) エバリュエーター」を参照してください。
リスクと安全性の評価者
| Evaluator | Purpose |
|---|---|
| 嫌悪と不公平 | 偏った、差別的、または嫌悪的なコンテンツを識別します。 |
| Sexual | 不適切な性的コンテンツを識別します。 |
| Violence | 激しいコンテンツまたは煽動を検出します。 |
| Self-Harm | 自傷行為を助長または説明するコンテンツを検出します。 |
| Protected Materials | 著作権で保護されたコンテンツの不正使用を検出します。 |
| 間接攻撃 (XPIA) | 取得したコンテキストを通じて挿入された間接的な脱獄の試行に対して応答が落ちたかどうかを測定します。 |
| Code Vulnerability | 生成されたコードのセキュリティの問題を識別します。 |
| Ungrounded Attributes | ユーザーの操作から推論された、製造された情報または幻覚的な情報を検出します。 |
| 禁止されたアクション (プレビュー) | 明示的に許可されていないアクションに違反する動作に関与する AI エージェントの能力を測定します。 |
| 機密データ漏洩 (プレビュー) | 機密情報の公開に対する AI エージェントの脆弱性を測定します。 |
詳細については、 リスクと安全性エバリュエーターに関するページを参照してください。
Agent evaluators
| Evaluator | Purpose |
|---|---|
| タスクの準拠 (プレビュー) | システム命令に従って、特定されたタスクにエージェントが従うかどうかを測定します。 |
| タスクの完了 (プレビュー) | エージェントが要求されたタスクをエンド ツー エンドで正常に完了したかどうかを測定します。 |
| 意図の解決 (プレビュー) | エージェントがユーザーの意図を識別して対処する正確な方法を測定します。 |
| タスク ナビゲーションの効率 | エージェントの一連の手順が、効率を測定するための最適なパスまたは予想されるパスと一致するかどうかを判断します。 |
| ツール呼び出しの精度 | 選択、パラメーターの正確性、効率など、ツール呼び出しの全体的な品質を測定します。 |
| Tool Selection | エージェントがタスクに最適で効率的なツールを選択したかどうかを測定します。 |
| ツール入力の精度 | すべてのツール呼び出しパラメーターが、接地、型、形式、完全性、および適切さを含む厳密な基準で正しいことを検証します。 |
| ツールの出力使用率 | エージェントが応答と後続の呼び出しでツール出力をコンテキストに応じて正しく解釈して使用するかどうかを測定します。 |
| ツール呼び出しの成功 | すべてのツール呼び出しが技術的なエラーなしで正常に実行されたかどうかを評価します。 |
詳細については、「 エージェント エバリュエーター」を参照してください。
Azure OpenAI の採点者
| Evaluator | Purpose |
|---|---|
| Model Labeler | カスタム ガイドラインとラベルを使用してコンテンツを分類します。 |
| String Checker | 柔軟なテキスト検証とパターン マッチングを実行します。 |
| Text Similarity | テキストの品質を評価するか、セマンティックの近さを判断します。 |
| Model Scorer | カスタム ガイドラインに基づいてコンテンツの数値スコア (カスタマイズされた範囲) を生成します。 |
詳細については、「Azure OpenAI Graders を参照してください。
カスタム エバリュエーター (プレビュー)
組み込みのエバリュエーターに加えて、特定の評価基準に合わせて調整されたカスタム エバリュエーターを作成できます。 カスタム エバリュエーターを使用すると、ビジネス要件とアプリケーション固有のニーズに合わせて、一意のスコア付けロジック、検証規則、品質メトリックを定義できます。
詳細については、「 カスタム エバリュエーター」を参照してください。
Combining evaluators
包括的な品質評価を行う場合は、複数のエバリュエーターを組み合わせます。
- RAG アプリケーション: 取得 + 接地 + 関連性 + コンテンツの安全性
- エージェント アプリケーション: ツール呼び出しの精度 + タスクの準拠 + 意図の解決 + コンテンツの安全性
- 翻訳アプリケーション: BLEU + METEOR + 流暢 + コヒーレンス
- すべてのアプリケーション: 責任ある AI プラクティスに対してリスクと安全性の評価者 (ヘイトアンドアンフェア、性的、暴力、Self-Harm) を追加する