インシデント対応の重要性
- 3 分
このラーニング パスの別のモジュールで説明されている監視の原則とプラクティスに基づいて、監視で問題が明らかになったときに実行する方法について学習します。 システムが想定どおりに動作していないことを通知するアクション可能なアラートを受け取った場合、それが問題に対処するための応答のトリガーです。
インシデントとは
インシデント対応とは、インシデントが発生したときに実行するアクションに関するもので、インシデントを正確に構成するものは何ですか? 答えは主観的なものである可能性があります。すべてのエンジニアがインシデントとは何かについて同意しません。 さまざまな業界や組織で質問をすると、さまざまな回答が得られます。
顧客が影響を受けるかどうかに関係なく、すべての中断をインシデントとしてラベル付けするものもあります。 このモジュールのコンテキストでは、インシデントがサービス中断として定義されていること、つまり、ユーザーが依存しているサービスを使用するユーザーの能力に影響を与える発生または条件に同意できます。 たとえば、システムがダウンしている場合や、お客様に影響を与える方法で誤動作している場合などがあります。
インシデント対応とは
すべての問題を防ぐことは賞賛に値しますが、不可能な目標です。 問題が発生するため、エンド ユーザーへの影響を制限し、できるだけ早く通常の操作に戻す計画が必要です。
重要なのは、 反応するのではなく、緊急性を持って対応 することです。 反応は、長期的な影響を考慮せずに、より刺激的であり、現在の瞬間に基づく傾向があります。 応答は、よく考え出され、整理され、情報に基づいています。
インシデント対応アプローチによって、次の効果が決まります。
- 何が起こっているのかを理解する (問題の診断)。
- トリアージ (緊急性の判断) と問題の優先順位付け。
- 問題を軽減するために適切なリソースを活用する。
- 問題に関する関係者とのコミュニケーション。
問題を修復したら、インシデント後のレビュー プロセスを通じてインシデントから学習できます。 これは重要なテーマであり、議論の価値があるモジュール全体を持っています。
インシデント対応のパフォーマンスの測定
"回復する時間"、"修復する時間"、または "復元する時間" としてさまざまな定義されている頭字語 TTR に精通している可能性があります。これらのバリアントはすべて、同じ考え方を指します。サービスを再び顧客の期待に応える状態に戻すのにかかる時間です。
フレームワークによって、この概念には異なる名前が使用されます。 DORA の現在のガイダンスは、5 つのソフトウェア配信パフォーマンス メトリックのうちの 1 つである、 失敗したデプロイの復旧時間を指します。 運用環境の問題を引き起こす失敗したデプロイからチームが回復できる速度を測定し、インシデント対応機能の最も強力な指標の 1 つです。
このメトリックは、インシデントに対応する際のチームのパフォーマンスを測定する方法の 1 つです。 サービスの復元速度が速いほど、サービスの停止やサービスの低下がユーザーに与える影響が少なくなります。
組織がインシデント対応をどの程度適切に処理しているかを把握することが重要です。 DORAの研究は、回復パフォーマンスと全体的なソフトウェア配信パフォーマンスとの間に強い関係を示し続けます。 ベンチマーク バンドを固定ターゲットとして扱うのではなく、復旧時間を使用して時間の経過に伴うサービスの比較、応答プロセスのボトルネックの特定、改善が機能しているかどうかを測定します。
強力なインシデント対応プラクティスを持つチームは、パフォーマンスの低いピアよりも速く回復し、その速度を全体的に強力な配信パフォーマンスとペアリングする傾向があります。 優れた監視、明確な所有権、実践された対応計画、自動化はすべて、復旧時間の短縮に役立ちます。
強力なインシデント対応プラクティスを持つチームが、残りの部分よりもはるかに迅速に回復する理由 少なくとも部分的には、物事が必然的にうまくいかないときに、適切な基本的な対応計画を既に実施することの重要性を理解しているためです。
このモジュールを進める際に、インシデントの特性とライフサイクル、およびその知識を使用して独自の基本計画を作成する方法について学習します。