エージェントの品質と信頼性に関する自動テストを実行する

〜のために有効化されている パブリック プレビュー 一般公開
管理者、作成者、マーケティング担当者、またはアナリスト向けで、自動的に有効化される 2025 年 9 月 21 日 -

ビジネス バリュー

評価フレームワークは、自動化されたテスト ワークフローを有効にし、手動作業を最小限に抑え、明確な実行結果を提供することで、エージェントの検証を強化します。 これにより、一貫性のある信頼性の高いエージェント応答が保証され、作成者は開発サイクルの早い段階で潜在的な問題を特定できます。 実行結果と評価インジケーターを提供することで、作成者はテスト カバレッジの評価、実行の整合性の検証、エージェントの全体的なパフォーマンスの向上を実現し、デプロイの高速化と信頼性の向上を実現できます。

機能の詳細

Copilot Studio の評価フレームワークでは、AI エージェントをテストするための構造化された自動化されたアプローチが導入され、高品質のデプロイと継続的な改善が保証されます。 これは、次の 3 つのコア ワークストリームを中心に構築されています。

  1. 自動評価プロセスの開始 作成者は、エージェントから直接、またはテスト ウィンドウを使用して、自動評価テストをシームレスに開始できます。 これにより、構造化された検証ワークフローが可能になり、一貫性のある反復可能なテストが保証されます。

  2. 高度なテスト クエリの編集 評価フレームワークを使用すると、作成者はテスト クエリを調整およびカスタマイズして検証精度を最大化できます。 • さまざまなテスト ニーズに合わせてテスト クエリを動的に変更する • シナリオの範囲を拡大するためにカスタム テストの質問を手動で入力する • AI で生成されたテスト クエリを活用して評価の深さを強化する

  3. 自動テストの実行と結果の表示評価フレームワークは、構造化された自動テスト ワークフローを提供し、信頼性の高い実行と明確な検証結果を保証します。 • 自動化されたテストを実行して複数のシナリオにわたってエージェントの応答を評価する • 全体的なパフォーマンスの概要を提供し、ユーザーが評価結果をすばやく測定するのに役立つ • セッション別の結果を分割して実行の詳細とエージェントの動作を追跡する • 詳細な質問レベルのフィードバックを提供します。 次を含む: o 回答と正確性の評価 o 失敗したテストの説明 o 追跡性を向上するための質問ソースの識別

地域

Microsoft Azure でこの機能が計画または利用可能な地域を確認するには、Explore Feature Geography レポートをご覧ください。

利用可能な言語

この機能の可用性については、「 機能言語の探索 」レポートを参照してください。

エージェントを評価するテスト ケースを作成する (ドキュメント)