Copilot エージェント評価の品質シグナルを導き出す

品質シグナルは、エージェントの応答が成功または失敗する 理由 を理解するための構造化された方法を提供します。 チームが評価結果を有意義なカテゴリにグループ化し、改善の優先順位を付け、時間の経過に伴う進捗状況を追跡するのに役立ちます。

この記事では、評価結果から品質シグナルを導き出して問題を診断し、パターンを特定し、Copilot エージェントのパフォーマンスを向上させる方法について説明します。

品質シグナルを使用することで、チームは次のことができます。

  • 定期的なエラー パターンを特定する
  • 影響に基づいて改善の優先順位を付ける
  • イテレーション全体のパフォーマンスを追跡する
  • 結果を利害関係者に明確に伝える

品質シグナルとは

品質シグナルは、評価結果のパターンを表すカテゴリです。 これらは、定義済みのルールではなく、観察された動作から来ます。

アサーションと品質シグナルは、評価ワークフローで連携します。

  • アサーションは、 応答が成功するか失敗するかを決定します。
  • 品質は、アサーションの 結果を上位レベルのパターンにグループ化します。
側面 アサーション 品質信号
レベル 特定の具象 抽象とカテゴリ
用途 成功または失敗を判断する パターンを診断する
数量 テスト ケースごとの多く エージェントごとに少数
始点 テスト前に定義 結果から派生
"15 日" が含まれています ポリシーの正確性

アサーションを定義した後、アサーションの結果から品質シグナルを派生させ、それらのシグナルを使用して、シナリオ全体のパフォーマンスを追跡します。

一般的な品質信号

Copilot エージェントを評価するときは、次の一般的な品質シグナルを使用します。

  • ポリシーの正確性 – 信頼できるナレッジ ソースと応答が一致するかどうかを測定します
  • ソース属性 – 応答が情報ソースを明確に識別するかどうかを測定します
  • 個人用設定 – 応答が関連するユーザー コンテキストを使用するかどうかを測定します
  • ツールの精度 – ツール呼び出しが正しく実行されているかどうかを測定します
  • ツール応答処理 – エージェントがツールの出力を正しく解釈するかどうかを測定します
  • エスカレーションの妥当性 – 要求が必要なときに人間のサポートにルーティングされるかどうかを測定します
  • プライバシー保護 – 機密情報が保護されているかどうかを測定します
  • アクションの有効化 – 応答が明確な次の手順を提供するかどうかを測定します

シグナルの評価と一般的な原因

次の表に、各品質シグナルのインジケーターを示します。

品質信号 インジケーターを渡す 失敗インジケーター 一般的な原因
ポリシーの正確性 正しい値と日付

正確なポリシーの詳細

現在のドキュメントとの整合性
古い値または正しくない値

競合または作成された詳細
古いドキュメントまたは重複するドキュメント

不正な取得結果

モデルの幻覚
ソース属性 特定のドキュメントまたはセクションへの参照

属性ステートメントをクリアする
ソースが指定されていません

あいまいな参照または一般的な参照
ソース メタデータがありません

命令で属性が強調されない
カスタマイズ リージョン固有またはロール固有の応答

コンテキスト対応の推奨事項
ユーザー コンテキストを無視する一般的な応答

リージョンまたはロールベースの情報が正しくありません
エージェントで使用できないユーザー コンテキスト

対象ユーザー別にセグメント化されていないナレッジ ソース
ツールの精度 正しいツールの選択

有効なパラメーターと識別子

入力されたすべての必須フィールド
パラメーターが見つからないか正しくない

無効なツール入力
あいまいな API 仕様

パラメーター のマッピングが正しくありません
ツールの応答処理 ツールの結果を正確に伝達

成功状態とエラー状態の正しい処理
正しくない成功要求

無視または誤って解釈されたツール エラー
エラー処理ガイダンスがありません

ツール応答の誤解釈
エスカレーションの妥当性 機密性の高い問題または複雑な問題が正しくルーティングされる

エスカレーション ルールへの準拠
エージェントがサポートされていないシナリオの処理を試みる

リスクの高い要求をエスカレートできない
未定義のエスカレーション条件

過度に許容される命令
プライバシー保護 制限付きデータの開示拒否

承認された情報に限定された応答
機密データの開示または推論

保護された情報を公開する応答
脆弱なアクセス制御

プライバシー に関するガイダンスが不十分
アクションの有効化 具体的な手順

リンク、識別子、または連絡先の詳細
あいまいまたは不完全なガイダンス

アクション可能な手順が見つからない
ナレッジ ソースに手続き型情報が見つからない

過剰に集計された応答

品質信号を導き出す方法

品質シグナルは、事前に定義されたチェックリストではなく、評価結果のパターンから派生します。 品質シグナルを導き出すには:

  • 評価テスト ケースの初期セットを実行します。
  • テスト ケース全体で失敗した応答を確認します。
  • エラーの定期的なパターンを特定します。
  • 各パターンを品質信号として定義します。
  • 関連するアサーションに対応するシグナルをタグ付けします。
  • シグナルでパス レートを追跡します。

実際の品質信号

次の例は、従業員オンボード エージェントに対して定義された品質シグナルを示しています。

観測 識別されるパターン 品質信号
返される正しい PTO 値 正確な知識取得 ポリシーの正確性
応答で引用されたソース 含まれる属性 ソース属性
返される地域情報が正しくありません コンテキストが使用されない カスタマイズ
正しくないパラメーターで呼び出されたツール 実行エラー ツールの精度
HR に適切にルーティングされた要求 正しいエスカレーション エスカレーションの妥当性
ほぼ公開されている機密データ プライバシー境界リスク プライバシー保護
応答には次の手順が含まれます アクション可能な応答 アクションの有効化

品質信号の具体的な対策を以下に示します。

ポリシーの正確性 ソース属性 ツールの精度
正しい PTO 期間が含まれています 権限のあるドキュメントを引用する 正しいツールを呼び出します
正しい登録期限を含む 特定のセクションを参照する 有効なパラメーターを使用します
古いポリシーを参照しない 正しい結果を返します

品質信号を適用して通信する

品質シグナルを使用して評価ワークフローを推進し、分析情報を伝達します。 品質信号を適用するには:

  • タグ アサーション – テスト ケースの各アサーションにシグナル タグを追加します。

    テスト ケース: PTO-001
    プロンプト: 「新入社員は何日間休暇を取るの?

    アサーション:

    • 応答には "15 日" が含まれています。
      シグナル: ポリシーの正確性

    • 回答は、従業員ハンドブックを引用しています。
      シグナル: ソース属性

    • 応答では、 <2 年のテニュア ブラケットについて説明します。
      シグナル: パーソナル化

  • メトリックの計算 – シグナルによる成功と失敗の結果を集計します。

    品質信号 テスト_ケース 渡す 失敗 合格率
    ポリシーの正確性 25 23 2 92%
    ソース属性 25 20 5 80%
    カスタマイズ 15 11 4 73%
    ツールの精度 12 10 2 83%
    エスカレーションの妥当性 8 8 0 100%
    プライバシー保護 10 10 0 100%
  • 問題の優先順位付け – パスレートが低い信号や影響が大きい信号に焦点を当てます。

    1. パーソナル化 (73%) - 最大のギャップ、最初に調査します。
    2. ソース属性 (80%) - 2 番目の優先度。
    3. ツールの精度 (83%) - 3 番目の優先順位。
    4. ポリシーの精度 (92%) - 軽微な問題、監視。
  • 進行状況の追跡 – エージェント バージョン間のシグナル パス レートを監視します。

    • バージョン 1.0 > 1.1 > 1.2 > 1.3
    • パーソナル化: 73% > 78% > 85% > 91% (改善)
    • ソース属性: 80% > 82% > 88% > 90% (改善)
    • ツールの精度: 83% > 85% > 84% > 92% (v1.2 回帰後に改善)

品質シグナルは、利害関係者の会話を変革します。 この特異性により、対象となる修正、定量的な進行状況の追跡、より明確な利害関係者のコミュニケーションが可能になります。

シグナルなし: エージェントのパフォーマンスが良好ではありません。 ユーザーが不平を言っている。

シグナルの場合: ポリシーの精度は 92% で、目標を達成しています。 ただし、パーソナル化は前回の更新後に 73% に低下しました。 具体的には、英国の従業員は米国の休日情報を取得しています。 根本原因を特定しました。コンテキストの取得で場所データが渡されていません。 修正は次のリリースで進行中です。

エージェントの種類別の品質シグナル

品質シグナルと優先順位は、評価するエージェントの種類によって異なります。

エージェントの種類 信号 優先度
知識に根付いた ポリシーの正確性
ソース属性
完全
カスタマイズ
ツール呼び出し ツールの精度
ツールの応答処理
アクションの有効化
エラー復旧
ハイブリッド ルーティングの精度
ナレッジ シグナル
ツール信号
エスカレーションの妥当性
顧客向け プライバシー保護
トーンとプロフェッショナリズム
エスカレーションの妥当性
解決の完全性

よくある落とし穴を避ける

品質シグナルが役に立ち、一貫性があり、実用的であることを確認するには、次の問題を避けてください。

汎用カテゴリの代わりに特定のシグナルを使用する

"Accuracy"、"Helpfulness"、"Relevance" など、広すぎるシグナルは、実用的な分析情報を提供しません。 一般的なシグナルを使用すると、根本原因の特定や改善の優先順位付けが困難になります。

代わりに、評価結果の特定の観測可能なパターンに基づいてシグナルを定義します。

  • 回避: 精度
  • 優先: ポリシーの正確性、ソース属性

過度に細かい信号を避ける

範囲が狭すぎる信号を作成すると、分析情報を向上させることなく複雑さが増します。 過剰な粒度フラグメント分析により、意味のある傾向の追跡が困難になります。

代わりに、関連する動作を、より広範で再利用可能なシグナル カテゴリにグループ化します。

  • 避ける: PTOの正確さ、利点の正確さ、休日の正確さ
  • 優先: ポリシーの正確性

漠然とした合格と不合格の基準を回避する

"正確性" などのあいまいな信号定義には、測定可能な標準がありません。 明確な基準がないと、結果は一貫性がなく、解釈が困難です。

代わりに、評価結果に関連付けられた明示的で観察可能な動作を使用してシグナルを定義します。

  • 回避: "応答が正しい"
  • 優先: "応答には正しい値が含まれており、権限のあるソースを引用しています"

次の手順