Azure SRE エージェントのエージェント実験環境

変更をデプロイする前に、カスタム エージェントの動作をリアルタイムでテストします。 手順、ツール、ハンドオフを編集し、分割画面レイアウトで即座にフィードバックを送信できます。 AI を利用したスコアリングと迅速な修正により、エージェントの品質を評価します。

問題

効果的なエージェント構成の構築は反復的なプロセスです。 手順の記述、ツールの割り当て、ハンドオフの設定を行います。 デプロイして初めて、エージェントが意図を誤解していることや、重要なツールが欠けていることが判明する場合があります。 編集、デプロイ、テスト、修正の各サイクルは、無駄な時間と、運用ワークフローを中断するリスクを伴います。

専用のテスト環境がない場合は、変更をデプロイして、その動作を確認します。 実際のスレッドに影響を与えるライブ会話でテストします。 あなたの指示が十分に明確であるかどうかを推測します。

遊び場のしくみ

プレイグラウンドは、エージェント キャンバスの Canvas ビューおよび Table ビューと並ぶ専用ビューです。 [表示] トグルから [ 遊び場のテスト ] を選択して、編集とテストを行う分割画面環境に入ります。

左側にフォーム エディターが表示され、右側にチャット テスト パネルが表示されている、分割画面レイアウトを示すエージェントプレイグラウンドのスクリーンショット。

テスト対象を選択する

上部の [カスタム エージェント/ツール ] ドロップダウンを使用して、テスト対象を選択します。

エンティティ テストできる内容
カスタム エージェント ライブ チャットでの手順、ツール、ハンドオフ、メモリ
エージェント オーケストレーター プロンプトをオーバーライドし、ルーティング動作をテストする
システム ツール カスタム パラメーターを使用して組み込みツールを実行する
Kusto ツール 接続されたクラスターに対してクエリを実行する

テストに使用できるカスタム エージェントとツールを示すエンティティ セレクタードロップダウンのスクリーンショット。

サイド バイ サイドで編集とテストを行う

カスタム エージェントの場合、プレイグラウンドは 2 つのパネルに分割されます。

エディター:

  • フォーム ビュー: カスタム エージェント名、手順、ハンドオフ命令、ハンドオフ カスタム エージェント、ツール、ナレッジ ベース アクセスを編集します。
  • YAML ビュー: エージェントの完全な構成を YAML として編集します。

テスティング:

  • [テスト] タブ: 現在の構成を使用してエージェントとチャットします。
  • [評価] タブ: AI を利用した品質分析を実行します。

構成を変更すると、[ 適用 ] を選択して変更を保存するか 、[破棄] を選択して元に戻すまで、チャット入力は無効になります。 この動作により、古い構成をテストできなくなります。 [適用] を選択すると、新しいチャット スレッドも開始されるため、更新された構成を最初からテストできます。

このアプローチの違い

ライブ会話でのテストとは異なり、プレイグラウンドは、変更が運用環境のスレッドに影響しない分離された環境を提供します。 分割画面レイアウトは、ビューを切り替えたり、デプロイを待機したりすることなく、命令の変更の影響をすぐに確認することを意味します。

評価機能は、手動テストを超えています。 AI は、エージェントの構成とチャットの動作を分析して、見逃す可能性がある問題 (不明な指示、ツールの不足、安全性のギャップ、意図のずれ) を明らかにします。

の前に 後の
変更をデプロイしてから、ライブ チャットでテストする 分離された環境で即座にテストする
命令が明確かどうかを推測する AI を利用した明瞭度スコアを取得する
インシデント中に不足しているツールを検出する 評価によってツールのギャップを事前に明らかにする
編集とテストのために複数のタブを切り替える エディターとチャットを並べて分割画面を使用する

エージェントの品質を評価する

[ 評価 ] タブでは、エージェント構成に対して AI を利用した品質スコアリングが提供されます。 [ 評価 ] を選択して、現在のセットアップと最近のチャット動作を分析します。

この評価では、次のスコアが返されます。

スコア 測定対象
全般 結合された品質スコア (0 ~ 100)
意図の一致 エージェントの動作が目標とどの程度一致しているか (1 から 5)
完全 プロンプトにロール、目標、運用ガイダンスが含まれているかどうか
ツール適合性 適切なツールが構成されているかどうか
プロンプトの明確さ 命令がどれほど明確で実用的か
実行可能性 応答に具体的な実行可能な次の手順が含まれるかどうか
Safety エラー処理、確認プロンプト、セーフガード

クイック修正

評価で改善点が特定されたら、[ 確認して適用 ] を選択してクイック修正ダイアログを開きます。 必要な修正プログラムを選択し、YAML の差分をプレビューしてから、[ 選択した修正を受け入れる ] ボタンを使用します。 編集を続行するか、すぐに保存することもできます。

ヒント

いくつかのテスト会話の後に評価を実行します。 この評価では、構成と共にチャットの動作が考慮され、より正確なスコアリングが提供されます。

評価の実行後にエージェント構成を変更すると、結果は いとしてマークされ、再評価を求められます。 同様に、評価後の新しいチャット アクティビティは、結果を 古いものとしてマークします。 再評価して、最新のテストを反映した分析情報を取得します。

分離してツールをテストする

エージェントのプレイグラウンドとは別に、システム ツールと Kusto ツールをテストできます。

システム ツール

[カスタム エージェント]/[ツール] ドロップダウンからシステム ツールを選択して、組み込み機能を個別にテストします。 パラメーター値を入力し、[ ツールの実行 ] を選択して生の JSON 出力を表示します。

Kusto ツール

Kusto ツールを選択して、接続されたクラスターに対してクエリをテストします。 テスト パネルには、行数、列、実行時間を含むクエリ結果が表示されます。 KQL を調整して再実行します。

詳細な手順については、「 プレイグラウンドでツールをテストする」を参照してください。

AI による支援構成

プレイグラウンドには、カスタム エージェントの指示を調整するための 2 つの AI アシスタンス機能が含まれています。

  • AIで改善する: 指示とハンドオフの説明をその場で書き換えます。 この機能は、現在のテキストを AI 改善バージョンに直接置き換えるので、保存する前に変更を確認してください。
  • AI の提案を表示する: AI の推奨事項を示すフォームと共に読み取り専用パネルが開きます。改善のための提案、潜在的な問題に関する警告、および改善されたバージョンの指示とハンドオフの説明。 この機能では、構成は変更されません。 編集中に参照として使用します。

概要

資源 学習内容
プレイグラウンドでツールをテストする プレイグラウンド インターフェイスの詳細なチュートリアル
資源 説明
カスタム エージェント カスタム エージェントの動作方法と使用するタイミング
Kusto ツール エージェント用の再利用可能な KQL クエリを作成する
Python コードの実行 カスタム Python ツールを作成する