Introduktion

Slutförd

Dickerson-hierarkin för tillförlitlighet erbjuder en karta för att navigera i tillförlitlighetsutmaningar; vad som måste åtgärdas och i vilken ordning. Liksom andra hierarkier av den här typen är det viktigt att nivån du är på är solid innan du flyttar upp pyramiden.

Pyramiddiagram över Dickerson-hierarkin för tillförlitlighet med sju nivåer; Granskningsnivån efter incidenten är markerad som den här modulens fokus.

Från basen och uppåt är de sju nivåerna:

  1. Övervakning: Du kan inte förbättra det du inte kan se.
  2. Incidenthantering: Tillförlitliga, repeterbara processer för att reagera när aviseringar utlöses.
  3. Granskning efter incident: Lär dig av de incidenter som inträffar (fokus för den här modulen).
  4. Testning och lansering: Fånga regressioner innan de når produktion.
  5. Kapacitetsplanering: Se till att systemet har de resurser som behövs för att möta efterfrågan.
  6. Utveckling: Skriva tillförlitlig programvara.
  7. Produkt: Skapa det rätta för användarna.

Den här modulen hanterar nivån ungefär i mitten av pyramiden. Efter att ha tagit itu med din övervakning och ditt incidenthanteringssvar (kanske med hjälp av andra Learn-moduler i den här utbildningsvägen) har du nu möjlighet att fokusera på principer och metoder som kan hjälpa dig att förbättra din driftspraxis.

Hierarkin är anpassad från Mikey Dickersons hierarki av tillförlitlighetsbehov.

I den här modulen fokuserar vi på granskningar efter incident som kan hjälpa dig att lära dig av fel, vilket ger bättre tillförlitlighet.

När du har slutfört den här modulen gör du följande:

  • Upptäck vikten av att lära sig av incidenter.
  • Förstå de aspekter av komplexa system som gör det viktigt att lära sig av fel.
  • Lär dig när och hur du utför en granskning efter incident.
  • Förstå syftet med och målen med en granskning efter incident.
  • Lär dig de komponenter som går in i en bra granskning efter incident.
  • Utforska Azure verktyg som kan hjälpa dig att komma igång med granskningar efter incident.
  • Bli medveten om de vanliga fällor att undvika.
  • Identifiera användbara metoder för att genomföra en bättre granskning.

En introduktionshistoria

För att ställa in scenen för den här modulen, här är en sann historia (eller hälften av den, faktiskt; vi kommer till den andra delen senare i den här modulen):

Under andra världskriget var B-17 "Flying Fortress"-flygplanet inblandat i en serie olyckor. Vi vet inte alla detaljer om dessa olyckor, och vi vet inte exakt hur många det var. Det var krigstid, och många av detaljerna var hemliga och förblir hemliga. Vad vi vet är att det fanns ett betydande antal liknande incidenter med många enskilda flygplan. Historiska återberättanden tenderar att fokusera på skadade flygplan snarare än allvarliga skador, men krigstidsrekordet är ofullständigt.

I varje fall skulle följande hända: En B-17 skulle komma in för att landa, landa framgångsrikt, och sedan, antingen på landningsbanan eller på väg tillbaka till hangaren, skulle något konstigt hända. Något allvarligt skulle hända. B-17 skulle vara på marken och plötsligt skulle landningsstället dras in, och planet skulle kollapsa på landningsbanan.

I varje fall skulle utredarna leta efter bevis på mekaniska eller elektriska fel, och i varje fall kunde de inte hitta några. Så vad de drog slutsatsen var att detta var ett fall av pilotfel, att piloterna av misstag hade dragit tillbaka landningsstället.

Här är ytterligare två informationsdelar: utredarna hade rätt i att inga mekaniska eller elektriska fel hade inträffat. Olyckorna fortsatte att inträffa.

Den här informationen kan leda till att du är missnöjd med den inledande slutsatsen om dessa olyckor, kanske lämnar dig att undra om det här är hela bilden. I den här modulen föreslår vi att något saknas i den här slutsatsen och i de undersökningar som ledde till den.