Azure SRE エージェントでインシデント対応計画を作成する

インシデント対応計画を使用すると、重大度、サービス、インシデントの種類などのフィルター条件に基づいて、受信したインシデントを適切なカスタム エージェントに自動的にルーティングできます。 各アラートを手動でトリアージする代わりに、条件を 1 回定義し、エージェントは一致するインシデントを到着時に処理します。

このチュートリアルでは、エージェント キャンバスから応答プランを作成し、インシデントの一致をプレビューし、有効化/無効化トグルを使用してプランがアクティブなタイミングを制御します。

前提条件

  • インシデント プラットフォームが接続されているエージェント (PagerDuty、ServiceNow、または Azure Monitor)
  • 少なくとも 1 つのカスタム エージェントが構成されている
  • エージェント リソースにおける貢献者ロールまたは所有者ロール

手順 1: エージェント キャンバスを開く

SRE エージェント ポータルで、エージェントを選択します。 左側のサイドバーで、 BuilderAgent Canvas に移動します。

Warnung

インシデント プラットフォームを初めて接続するときに、既定の クイック スタート 応答プランが自動的に作成される場合があります。 カスタム プランを作成する前に、 テーブル ビュー に切り替えて、[ インシデント対応プラン ] タブを選択して確認します。 クイック スタート プランが存在する場合は削除します。 プランが重複すると、インシデントが誤ってルーティングされたり、2 回処理されたりする可能性があります。

手順 2: 新しい応答計画を作成する

エージェント キャンバスで、ツール バーの [ 作成 ] を選択します。 トリガー>インシデント対応計画 を選択します。

作成ダイアログが開きます。

フィルター条件を入力します。 表示されるフィールドは、インシデント プラットフォームによって異なります。

  • インシデント対応計画名: high-sev-api-triggerなどのわかりやすい名前を入力します。

Azure Monitor の場合:

  • 重大度: 1 つ以上の重大度レベルを選択します。
  • タイトルに含まれている (省略可能): 一致を絞り込むキーワードを追加します。

PagerDuty/ServiceNow の場合:

  • 影響を受けたサービス: このプランで対象となるサービスを選択するか、[ すべて] を選択します。
  • インシデントの種類: インシデント分類を選択するか、[ すべてのインシデントの種類] を選択します。
  • 優先度: P1 や P2 などの 1 つ以上の優先度レベルを選択します。
  • タイトルに含まれている (省略可能): 一致を絞り込むキーワードを追加します。

応答の構成を選択します。

  • 応答カスタム エージェント: 一致したインシデントを処理するカスタム エージェントを選択します。

  • エージェントの自律性レベル: エージェントの応答方法を選択します。

    • 自律 (既定): エージェントは個別に調査し、軽減策を実行します。
    • レビュー: エージェントは、実行前に承認のためのアクションを提案します。

[自律](既定値)を選択すると、オプションの横にℹ️ アイコンが表示されます。

それを選択して、自律モードの受信確認を確認してください。この受信確認には、自律実行の意味に関する概要(エージェントの境界、AIモデルの制限、あなたの責任など)が含まれています。 詳細については、 応答プラン -> カスタム エージェントの構成 に関するページを参照してください。

ヒント

完全な自律性を付与する前にエージェントの調査動作を検証する場合は、新しいプランの レビュー モードから開始します。 新しいプランの既定値は Autonomous です。

アラートの再調査のクールダウン期間を構成する (Azure Monitorでのみ)

インシデント プラットフォームが Azure Monitor の場合、Reinvestigation cooldown セクションが自律レベルの下に表示されます。

  • 有効 (チェックボックス、既定値: オン): 有効にすると、クールダウン ウィンドウ内で同じアラート ルールが繰り返し発生し、新しい調査スレッドが開始されるのではなく、既存の調査スレッドにマージされます。 ウィンドウ内で解決されたスレッドが再び開きます。

  • クールダウン時間 (スピナー、既定値: 3 時間、範囲: 1 ~ 24): スレッドが解決または閉じられた後、新しい火災が発生するまでの期間は、既存のスレッドを再度開く代わりに新しい調査を作成します。

ほとんどのアラート ルールは既定値のままにします。 すべての火災で独立した調査が必要な重大なアラートの場合にのみ、クールダウンを無効にします。

Warnung

クールダウンを無効にすると、ノイズの多いアラート ルールのトークン消費量が大幅に増加する可能性があります。 5 分ごとにトリガーされるルールは、新しい調査を毎回作成します。

すべての必須フィールド (プラン名、影響を受けるサービス、インシデントの種類、少なくとも 1 つの優先度レベル) を入力します。 [ 次へ ] ボタンが有効になります。

手順 3: 一致するインシデントをプレビューする

次へを選択します。 インシデント プレビューには、フィルター条件に一致する過去のインシデントの表が表示されます。

次の表が表示されます。

  • 一致する各インシデントの優先度作成日タイトルインシデント ID状態
  • プレビュー ウィンドウを調整するための時間範囲フィルター (既定値: 過去 90 日間)

結果を確認する:

  • 一致が多すぎますか? 前に戻り、重大度制限またはタイトル キーワードを追加します。
  • 一致がありませんか? この結果は、新しいサービスでは正常です。 計画は、今後のインシデントに対して引き続き機能します。
  • 正しい番号ですか? フィルターは適切に調整されています。

[ インシデント対応計画の作成 ] を選択して計画を保存します。

チェックポイント: プランは、状態 がオン (緑色のバッジ) のグリッドに表示されます。

手順 4: プランのオフとオンを切り替える

グリッドのチェック ボックスをオンにして、プランを選択します。

  1. ツール バーの [オフにする ] を選択します。 確認ダイアログが表示されます。
  2. プランを無効にするには、[ はい ] を選択します。

ステータス バッジが [オフ] に変わります。 スキャナーは、このプランに対するインシデントの照合を停止します。 フィルター構成は保持されます。

プランを再度有効にするには、次の手順に従います。

  1. プランをもう一度選択します。
  2. 有効にするを選択します。 確認なしですぐに有効になります。

状態バッジが [オン] に戻ります。

チェックポイント: トグル機能 - プランを削除せずにオンとオフを切り替えることができます。

手順 5: 応答計画グリッドで確認する

[インシデント対応プラン] ページの右側にあるグリッド内で、状態バッジ、カスタム エージェント、重大度フィルター、自律レベルの各列を使用し、ご自分の計画を参照することができます。

チェックポイント: あなたのプランは、正しい状態、カスタム エージェント、重大度と共にグリッドに表示されます。

ヒント

タイトルに含まれるフィルターを使用して、安全にテストします。 特定のテスト インシデント タイトル ( "[TEST] CPU spike" など) と一致するように設定し、そのタイトルでテスト インシデントを作成します。 このメソッドは、運用ルーティングに影響を与えずにエージェントの動作を検証します。 確認したら、タイトル フィルターを調整または削除します。

応答プランを編集または削除する

Edit

  1. 応答プラン グリッドで、 プラン ID リンク を選択してプランを開きます。
  2. 編集ビューが開き、現在のすべての設定があらかじめ設定されています。
  3. フィルター条件、カスタム エージェント、または自律レベルを変更します。
  4. [保存] を選択して変更を保存します。

Delete

  1. グリッドのチェック ボックスを使用してプランを選択します。
  2. ツール バーの [ 削除] を選択します。
  3. 確認ダイアログが表示されます。 [はい] を選択して確定します。

削除されたプランは、インシデントのルーティングを直ちに停止します。 計画が開始したアクティブな調査は、引き続き完了します。

学習した内容

  • [インシデント対応計画] ページから 応答計画 を作成する方法。
  • フィルター条件 (重大度、サービス、種類、タイトル) がインシデントを適切なカスタム エージェントにルーティングする方法。
  • コミットする前に、一致する履歴インシデントをプレビューする方法。
  • 有効化/無効化トグルを使用してルーティングを一時停止および再開する方法。
  • エージェント キャンバスの統合グリッド ビューでプランを確認する方法。
  • 自律型とレビューの自律性レベルの違い。
資源 学習内容
インシデント対応計画 完全な対応計画の機能を理解する
データ ソースを接続する カスタム エージェントにログ データへのアクセス権を付与する
詳細な調査 複雑な根本原因分析
カスタム エージェント さまざまなインシデントの種類に特化したカスタム エージェント