Azure SRE エージェントのインシデント プラットフォーム

インシデント プラットフォームは、問題が発生したときにエージェントに通知するシステムです。 インシデント プラットフォームを接続することで、エージェントは、誰かがチャットを開始するのを待たずに、アラートを受信し、問題を調査し、自動的にアクションを実行できます。

インシデント プラットフォームがない場合、エージェントは事後対応型です。ユーザーは質問を行い、オンデマンドで調査します。 1 つを接続すると、エージェントが事前対応型になります。インシデントが発生した瞬間にエージェントはインシデントを取得し、作業を即座に開始します。

サポートされているプラットフォーム

プラットフォーム 提供される内容
Azure Monitor 資格情報は必要ありません。 ウィザードで接続でき、マネージド リソース グループからのアラートは自動的にフローされ、定期的なアラートは 1 つのスレッドにマージされます
PagerDuty API ベースの統合によるインシデント アラートとオンコール管理
ServiceNow エンタープライズ IT サービス管理の統合

一度にアクティブにできるインシデント プラットフォームは 1 つだけです。 別のプラットフォームに切り替えると、現在のプラットフォームが切断されます。

インシデント プラットフォームを接続することで可能になる機能

接続されると、エージェントは次の機能を利用できます。

インシデントの自動受信

インシデントは、プラットフォームで作成された時点でエージェントに送られます。 誰もアラートをコピーして貼り付けたり、手動で調査を開始したりする必要はありません。 エージェントはインシデントを自動的に取得します。

豊富なインシデント カード

PagerDuty、ServiceNow、Azure Monitorなど、サポートされているすべてのプラットフォームからの着信インシデントは、チャット インターフェイスに rich カードとして表示されます。 各カードには、次の情報が表示されます。

フィールド 詳細情報
重大度バッジ 優先順位で色分けされた (例: P1/Sev0 = 赤、P2/Sev1 = オレンジ)
タイムスタンプ インシデント発生時
タイトル プラットフォーム プレフィックスを持つインシデント タイトル
地位 現在の状態 (トリガー済み、確認済みなど)
説明 インシデントの概要
対応計画 インシデントを処理する対応計画へのリンク (構成されている場合)
詳細の表示 元のプラットフォーム内のインシデントへのリンク

リッチ カードは、以前に使用したプレーンテキスト インシデント通知を置き換え、インシデントの詳細を一目で簡単にスキャンできるようにします。

インシデントの相互作用

お客様のエージェントは、インシデントの読み取りと書き戻しを行うことができます。 これらのツールは、追加のセットアップを必要とせず、対応するプラットフォームに接続すると自動的に使用できます。

プラットフォーム読み取り機能書き込み機能
Azure Monitorアラートの詳細、重大度、影響を受けるリソースアラートを確認し、アラートを閉じる
PagerDutyインシデントの詳細、診断確認、解決、メモの追加
ServiceNowインシデントの詳細ディスカッションエントリの投稿、確認、解決

対応計画

対応計画では、特定の種類のインシデントが発生したときに エージェントが実行する処理 を定義します。 インシデントの重大度、タイトル パターン、またはその他の条件に基づいてルールを構成すると、エージェントは自動的にプランに従います。

詳細情報: インシデント対応計画

応答計画では、次のことができます。

  • 特定の調査手順を実行する
  • 特定のコネクタとツールを使用する
  • 定義された自律性レベルで運用する ("情報のみを収集する" から "是正措置を取る" まで)
  • 人間にエスカレートする前に、自動的に (構成可能な制限まで) 調査を再試行してください

対応計画では、汎用アシスタントから、既知のインシデントの種類に対して定義された手順を使用してインシデント レスポンダーにエージェントを変換します。

クイックスタート対応計画

インシデント プラットフォームを接続すると、 クイック スタート応答プラン を有効にして、既定の応答プランを自動的に作成できます。 このプランでは、すぐに開始できます。

プラットフォーム 既定プラン ハンドル 自律性レベル
Azure Monitor Sev0、Sev1、Sev2 アラート 自主的な
PagerDuty P1 インシデント 自主的な

Azure Monitor では、すべての重大度レベル (Sev0 ~ Sev4) がサポートされます。 クイック スタート 計画では、既定で最も優先度の高いアラートを対象としています。 追加の重大度を含むようにカスタマイズしたり、優先順位の低いアラート用に個別のプランを作成したりできます。

クイック スタート プランでは、次の quickstart_handler という名前の応答プランが作成されます。

  • 優先度または重大度別にインシデントを照合します
  • 影響を受けたすべてのサービスについて説明します
  • 完全自律モードで実行
  • 後でカスタマイズまたは無効にできます

この既定のプランをカスタマイズするか、さまざまなフィルターと自律レベルで追加の応答プランを作成できます。

インシデントの値を追跡する

[ → インシデント メトリックの監視 ] セクションには、エージェントが時間の経過と同時にインシデントを処理する方法が示されます。

詳細情報: インシデント値の追跡

メトリクス 表示される内容
レビューされたインシデント エージェントが処理するインシデントの合計数
エージェントによる軽減 エージェントが自律的に解決するインシデント
エージェントによる支援 エージェントが役立ち、ユーザーが解決を完了するインシデント
ユーザーによる軽減 エージェントが提供する情報を使用してユーザーが解決するインシデント
保留中のユーザー アクション 人の入力を待っているインシデント

これらのメトリックを使用して、エージェントの有効性を理解し、チューニングが必要になる可能性がある応答計画を特定します。

インシデント プラットフォーム vs. コネクタ

これらの概念は連携して機能します。

事象管理プラットフォーム コネクタ
Purpose アラートの発生元 エージェントが使用できるデータとアクション
で設定された ビルダー → インシデントプラットフォーム ビルダー → コネクタ
方向 受信 (インシデントの流れがエージェントに向かう) 送信 (エージェントがシステムへの外部接続を行う)
PagerDuty がアラートを送信 → エージェントが調査する エージェントがKustoにクエリを実行し、根本原因を見つける

エージェントは両方の概念を使用します。インシデント プラットフォームによって調査が トリガー され、コネクタには調査用の ツール が用意されています。

リソース 共同作業の重要性
チュートリアル: 応答計画→を設定する 最初の応答計画を作成するためのステップ バイ ステップ ガイド
インシデント対応計画 応答プランがカスタム エージェントにインシデントをルーティングする方法
インシデント対応の自動化 エンドツーエンドのインシデント自動化機能
インシデントの値を追跡する エージェントのインシデント解決への影響を測定する
エージェントの使用状況を監視する 使用状況、セッション分析情報、エージェント アクティビティを追跡する
PagerDuty PagerDuty 固有のセットアップと機能
ServiceNow ServiceNow 固有のセットアップと機能
Azure Monitor アラート Azure Monitor のアラート通知、定期アラートのマージ、重大度のマッピング
コネクタ → コネクタが調査用のツールを提供する方法