Copilot エージェント評価の品質シグナルを導き出す

品質シグナルは、エージェントの応答が成功または失敗する理由を理解するための構造化された方法を提供します。チームが評価結果を有意義なカテゴリにグループ化し、改善の優先順位を付け、時間の経過に伴う進捗状況を追跡するのに役立ちます。

この記事では、評価結果から品質シグナルを導き出して問題を診断し、パターンを特定し、Copilot エージェントのパフォーマンスを向上させる方法について説明します。

品質シグナルを使用することで、チームは次のことができます。

定期的なエラーパターンを特定する
影響に基づいて改善の優先順位を付ける
イテレーション全体のパフォーマンスを追跡する
結果を利害関係者に明確に伝える

品質シグナルとは

品質シグナルは、評価結果のパターンを表すカテゴリです。これらは、定義済みのルールではなく、観察された動作から来ます。

アサーションと品質シグナルは、評価ワークフローで連携します。

アサーションは、 応答が成功するか失敗するかを決定します。
品質は、アサーションの 結果を上位レベルのパターンにグループ化します。

側面	アサーション	品質信号
レベル	特定の具象	抽象とカテゴリ
用途	成功または失敗を判断する	パターンを診断する
数量	テストケースごとの多く	エージェントごとに少数
始点	テスト前に定義	結果から派生
例	"15 日" が含まれています	ポリシーの正確性

アサーションを定義した後、アサーションの結果から品質シグナルを派生させ、それらのシグナルを使用して、シナリオ全体のパフォーマンスを追跡します。

一般的な品質信号

Copilot エージェントを評価するときは、次の一般的な品質シグナルを使用します。

ポリシーの正確性 – 信頼できるナレッジソースと応答が一致するかどうかを測定します
ソース属性 – 応答が情報ソースを明確に識別するかどうかを測定します
個人用設定 – 応答が関連するユーザーコンテキストを使用するかどうかを測定します
ツールの精度 – ツール呼び出しが正しく実行されているかどうかを測定します
ツール応答処理 – エージェントがツールの出力を正しく解釈するかどうかを測定します
エスカレーションの妥当性 – 要求が必要なときに人間のサポートにルーティングされるかどうかを測定します
プライバシー保護 – 機密情報が保護されているかどうかを測定します
アクションの有効化 – 応答が明確な次の手順を提供するかどうかを測定します

シグナルの評価と一般的な原因

次の表に、各品質シグナルのインジケーターを示します。

品質信号	インジケーターを渡す	失敗インジケーター	一般的な原因
ポリシーの正確性	正しい値と日付正確なポリシーの詳細現在のドキュメントとの整合性	古い値または正しくない値競合または作成された詳細	古いドキュメントまたは重複するドキュメント不正な取得結果モデルの幻覚
ソース属性	特定のドキュメントまたはセクションへの参照属性ステートメントをクリアする	ソースが指定されていませんあいまいな参照または一般的な参照	ソースメタデータがありません命令で属性が強調されない
カスタマイズ	リージョン固有またはロール固有の応答コンテキスト対応の推奨事項	ユーザーコンテキストを無視する一般的な応答リージョンまたはロールベースの情報が正しくありません	エージェントで使用できないユーザーコンテキスト対象ユーザー別にセグメント化されていないナレッジソース
ツールの精度	正しいツールの選択有効なパラメーターと識別子入力されたすべての必須フィールド	パラメーターが見つからないか正しくない無効なツール入力	あいまいな API 仕様パラメーターのマッピングが正しくありません
ツールの応答処理	ツールの結果を正確に伝達成功状態とエラー状態の正しい処理	正しくない成功要求無視または誤って解釈されたツールエラー	エラー処理ガイダンスがありませんツール応答の誤解釈
エスカレーションの妥当性	機密性の高い問題または複雑な問題が正しくルーティングされるエスカレーションルールへの準拠	エージェントがサポートされていないシナリオの処理を試みるリスクの高い要求をエスカレートできない	未定義のエスカレーション条件過度に許容される命令
プライバシー保護	制限付きデータの開示拒否承認された情報に限定された応答	機密データの開示または推論保護された情報を公開する応答	脆弱なアクセス制御プライバシーに関するガイダンスが不十分
アクションの有効化	具体的な手順リンク、識別子、または連絡先の詳細	あいまいまたは不完全なガイダンスアクション可能な手順が見つからない	ナレッジソースに手続き型情報が見つからない過剰に集計された応答

品質信号を導き出す方法

品質シグナルは、事前に定義されたチェックリストではなく、評価結果のパターンから派生します。品質シグナルを導き出すには:

評価テストケースの初期セットを実行します。
テストケース全体で失敗した応答を確認します。
エラーの定期的なパターンを特定します。
各パターンを品質信号として定義します。
関連するアサーションに対応するシグナルをタグ付けします。
シグナルでパスレートを追跡します。

実際の品質信号

次の例は、従業員オンボードエージェントに対して定義された品質シグナルを示しています。

観測	識別されるパターン	品質信号
返される正しい PTO 値	正確な知識取得	ポリシーの正確性
応答で引用されたソース	含まれる属性	ソース属性
返される地域情報が正しくありません	コンテキストが使用されない	カスタマイズ
正しくないパラメーターで呼び出されたツール	実行エラー	ツールの精度
HR に適切にルーティングされた要求	正しいエスカレーション	エスカレーションの妥当性
ほぼ公開されている機密データ	プライバシー境界リスク	プライバシー保護
応答には次の手順が含まれます	アクション可能な応答	アクションの有効化

品質信号の具体的な対策を以下に示します。

ポリシーの正確性	ソース属性	ツールの精度
正しい PTO 期間が含まれています	権限のあるドキュメントを引用する	正しいツールを呼び出します
正しい登録期限を含む	特定のセクションを参照する	有効なパラメーターを使用します
古いポリシーを参照しない		正しい結果を返します

品質信号を適用して通信する

品質シグナルを使用して評価ワークフローを推進し、分析情報を伝達します。品質信号を適用するには:

タグアサーション – テストケースの各アサーションにシグナルタグを追加します。

テストケース: PTO-001
プロンプト： 「新入社員は何日間休暇を取るの?

アサーション：
- 応答には "15 日" が含まれています。
  シグナル: ポリシーの正確性
- 回答は、従業員ハンドブックを引用しています。
  シグナル: ソース属性
- 応答では、 <2 年のテニュアブラケットについて説明します。
  シグナル: パーソナル化

メトリックの計算 – シグナルによる成功と失敗の結果を集計します。

品質信号	テスト_ケース	渡す	失敗	合格率
ポリシーの正確性	25	23	2	92%
ソース属性	25	20	5	80%
カスタマイズ	15	11	4	73%
ツールの精度	12	10	2	83%
エスカレーションの妥当性	8	8	0	100%
プライバシー保護	10	10	0	100%

問題の優先順位付け – パスレートが低い信号や影響が大きい信号に焦点を当てます。
1. パーソナル化 (73%) - 最大のギャップ、最初に調査します。
2. ソース属性 (80%) - 2 番目の優先度。
3. ツールの精度 (83%) - 3 番目の優先順位。
4. ポリシーの精度 (92%) - 軽微な問題、監視。
進行状況の追跡 – エージェントバージョン間のシグナルパスレートを監視します。
- バージョン 1.0 > 1.1 > 1.2 > 1.3
- パーソナル化: 73% > 78% > 85% > 91% (改善)
- ソース属性: 80% > 82% > 88% > 90% (改善)
- ツールの精度: 83% > 85% > 84% > 92% (v1.2 回帰後に改善)

品質シグナルは、利害関係者の会話を変革します。この特異性により、対象となる修正、定量的な進行状況の追跡、より明確な利害関係者のコミュニケーションが可能になります。

シグナルなし: エージェントのパフォーマンスが良好ではありません。ユーザーが不平を言っている。

シグナルの場合: ポリシーの精度は 92% で、目標を達成しています。ただし、パーソナル化は前回の更新後に 73% に低下しました。具体的には、英国の従業員は米国の休日情報を取得しています。根本原因を特定しました。コンテキストの取得で場所データが渡されていません。修正は次のリリースで進行中です。

エージェントの種類別の品質シグナル

品質シグナルと優先順位は、評価するエージェントの種類によって異なります。

エージェントの種類	信号	優先度
知識に根付いた	ポリシーの正確性	高
	ソース属性	高
	完全	中
	カスタマイズ	中
ツール呼び出し	ツールの精度	高
	ツールの応答処理	高
	アクションの有効化	高
	エラー復旧	中
ハイブリッド	ルーティングの精度	高
	ナレッジシグナル	中
	ツール信号	中
	エスカレーションの妥当性	中
顧客向け	プライバシー保護	高
	トーンとプロフェッショナリズム	高
	エスカレーションの妥当性	高
	解決の完全性	中

よくある落とし穴を避ける

品質シグナルが役に立ち、一貫性があり、実用的であることを確認するには、次の問題を避けてください。

汎用カテゴリの代わりに特定のシグナルを使用する

"Accuracy"、"Helpfulness"、"Relevance" など、広すぎるシグナルは、実用的な分析情報を提供しません。一般的なシグナルを使用すると、根本原因の特定や改善の優先順位付けが困難になります。

代わりに、評価結果の特定の観測可能なパターンに基づいてシグナルを定義します。

回避: 精度
優先: ポリシーの正確性、ソース属性

過度に細かい信号を避ける

範囲が狭すぎる信号を作成すると、分析情報を向上させることなく複雑さが増します。過剰な粒度フラグメント分析により、意味のある傾向の追跡が困難になります。

代わりに、関連する動作を、より広範で再利用可能なシグナルカテゴリにグループ化します。

避ける: PTOの正確さ、利点の正確さ、休日の正確さ
優先: ポリシーの正確性

漠然とした合格と不合格の基準を回避する

"正確性" などのあいまいな信号定義には、測定可能な標準がありません。明確な基準がないと、結果は一貫性がなく、解釈が困難です。

代わりに、評価結果に関連付けられた明示的で観察可能な動作を使用してシグナルを定義します。

回避: "応答が正しい"
優先: "応答には正しい値が含まれており、権限のあるソースを引用しています"

次の手順

複数ターンの会話を評価する

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-04-29

品質信号	インジケーターを渡す	失敗インジケーター	一般的な原因
ポリシーの正確性	正しい値と日付正確なポリシーの詳細現在のドキュメントとの整合性	古い値または正しくない値競合または作成された詳細	古いドキュメントまたは重複するドキュメント不正な取得結果モデルの幻覚
ソース属性	特定のドキュメントまたはセクションへの参照属性ステートメントをクリアする	ソースが指定されていませんあいまいな参照または一般的な参照	ソースメタデータがありません命令で属性が強調されない
カスタマイズ	リージョン固有またはロール固有の応答コンテキスト対応の推奨事項	ユーザーコンテキストを無視する一般的な応答リージョンまたはロールベースの情報が正しくありません	エージェントで使用できないユーザーコンテキスト対象ユーザー別にセグメント化されていないナレッジソース
ツールの精度	正しいツールの選択有効なパラメーターと識別子入力されたすべての必須フィールド	パラメーターが見つからないか正しくない無効なツール入力	あいまいな API 仕様パラメーターのマッピングが正しくありません
ツールの応答処理	ツールの結果を正確に伝達成功状態とエラー状態の正しい処理	正しくない成功要求無視または誤って解釈されたツールエラー	エラー処理ガイダンスがありませんツール応答の誤解釈
エスカレーションの妥当性	機密性の高い問題または複雑な問題が正しくルーティングされるエスカレーションルールへの準拠	エージェントがサポートされていないシナリオの処理を試みるリスクの高い要求をエスカレートできない	未定義のエスカレーション条件過度に許容される命令
プライバシー保護	制限付きデータの開示拒否承認された情報に限定された応答	機密データの開示または推論保護された情報を公開する応答	脆弱なアクセス制御プライバシーに関するガイダンスが不十分
アクションの有効化	具体的な手順リンク、識別子、または連絡先の詳細	あいまいまたは不完全なガイダンスアクション可能な手順が見つからない	ナレッジソースに手続き型情報が見つからない過剰に集計された応答