イントロダクション
信頼性のディッカーソン階層は、信頼性の課題をナビゲートするためのマップを提供します。何に対処する必要があり、どのような順序で。 この種の他の階層と同様に、ピラミッドを上に移動する前に、現在のレベルが確実であることが重要です。
ベースアップから、7 つのレベルは次のとおりです。
- 監視: 見えないものを改善することはできません。
- インシデント対応: アラートが発生したときに対応する信頼性の高い反復可能なプロセス。
- インシデント後のレビュー: 発生したインシデント (このモジュールの焦点) から学習します。
- テストとリリース: 運用環境に到達する前に回帰をキャッチします。
- 容量計画: 需要を満たすために必要なリソースがシステムに確保されていることを確認します。
- 開発: 信頼性の高いソフトウェアの作成。
- 製品: ユーザーにとって適切なものを構築する。
このモジュールは、ピラミッドのほぼ中央にある階層に対処します。 監視とインシデント対応 (このラーニング パスの他の Learn モジュールの助けを借りて) に対処したので、運用のプラクティスを平準化するのに役立つ原則とプラクティスに焦点を当てる機会が得られます。
この階層は、Mikey Dickerson の信頼性ニーズの階層から調整されています。
このモジュールでは、障害から学ぶのに役立つインシデント後のレビューに重点を置き、信頼性が向上します。
このモジュールを完了すると、次の操作が行われます。
- インシデントから学ぶことの重要性を発見します。
- 障害からの学習を重要にする複雑なシステムの側面を理解します。
- インシデント後のレビューを実施するタイミングと方法について説明します。
- インシデント後のレビューの目的と目標を理解します。
- インシデント後の適切なレビューに必要なコンポーネントを学びます。
- インシデント後のレビューの開始に役立つAzure ツールについて説明します。
- 回避する一般的なトラップを認識します。
- より良いレビューを実施するための有用なプラクティスを特定します。
入門記事
このモジュールのシーンを設定するには、実際のストーリーを次に示します (その半分は実際には、このモジュールの後半のパートに進みます)。
第二次世界大戦中、B-17の「空飛ぶ要塞」航空機は一連の事故に巻き込まれた。 私たちは、これらの事故の詳細をすべて知っているわけではありませんし、正確に何が起きていたのかはわかりません。 戦時中であり、詳細の多くは秘密であり、秘密のままです。 私たちが知っていることは、多くの個々の航空機に関連する同様のインシデントが多数あったということです。 歴史的な再話は重傷ではなく損傷した航空機に焦点を当てる傾向がありますが、戦時記録は不完全です。
いずれの場合も、B-17が着陸し、正常に着陸し、その後、ランウェイに着陸するか、格納庫にタクシーで戻ると、奇妙なことが起こります。 何か重大なことが起こるでしょう。 B-17は地上にあり、突然着陸装置が後退し、飛行機はランウェイに崩壊します。
いずれの場合も、調査官は機械的または電気的な故障の証拠を探し、いずれの場合も見つかりませんでした。 だから、彼らが結論づけたのは、パイロットが誤ってランディングギアを取り消したというパイロットエラーのケースだったということです。
次の 2 つの情報があります。調査官は、機械的または電気的な故障が発生しなかったことが正しかった。 事故は起き続けた。
この情報は、これらの事故に関する最初の結論に不満を抱かせるかもしれませんし、もしかしたらそれが全てかどうか疑問に思わせるかもしれません。 このモジュールでは、この結論とその原因となった調査で何かが不足していることを提案します。