Introdução

Concluído

A Hierarquia de Confiabilidade do Dickerson oferece um mapa para navegar em desafios de confiabilidade; o que precisa ser resolvido e em que ordem. Como outras hierarquias desse tipo, é importante que o nível em que você está seja sólido antes de subir a pirâmide.

Diagrama de pirâmide da Hierarquia dickerson de confiabilidade com sete camadas; a camada de Revisão pós-incidente é realçada como o foco deste módulo.

Na base para cima, as sete camadas são:

  1. Monitoramento: Você não pode melhorar o que não pode ver.
  2. Resposta a incidentes: processos confiáveis e repetíveis para reagir quando os alertas são acionados.
  3. Revisão pós-incidente: aprendendo com os incidentes que ocorrem (o foco deste módulo).
  4. Teste e Lançamento: Captura de regressões antes de chegarem à produção.
  5. Planejamento de capacidade: garantir que o sistema tenha os recursos necessários para atender à demanda.
  6. Desenvolvimento: escrever software confiável.
  7. Produto: criando a coisa certa para os usuários.

Este módulo aborda a camada aproximadamente no meio da pirâmide. Tendo abordado seu monitoramento e sua resposta a incidentes (talvez com a ajuda de outros módulos do Learn neste roteiro de aprendizagem), agora você tem a oportunidade de se concentrar em princípios e práticas que podem ajudá-lo a nivelar sua prática de operações.

A hierarquia é adaptada da Hierarquia de Necessidades de Confiabilidade de Mikey Dickerson.

Neste módulo, estamos nos concentrando em revisões pós-incidentes que podem ajudá-lo a aprender com a falha, resultando em uma confiabilidade aprimorada.

Quando concluir este módulo, você terá:

  • Descubra a importância de aprender com incidentes.
  • Entenda os aspectos de sistemas complexos que tornam importante o aprendizado com a falha.
  • Saiba quando e como conduzir uma revisão pós-incidente.
  • Entenda a finalidade e as metas de uma revisão pós-incidente.
  • Conheça os componentes que entram em uma boa revisão pós-incidente.
  • Explore as ferramentas do Azure que podem ajudar a começar com as revisões pós-incidente.
  • Lembre-se das armadilhas comuns a serem evitadas.
  • Identifique práticas úteis para realizar uma revisão melhor.

Uma história introdutória

Para definir a cena deste módulo, aqui está uma história verdadeira (ou metade dela, na verdade; chegamos à segunda parte mais adiante neste módulo):

Durante a Segunda Guerra Mundial, a aeronave B-17 "Fortaleza Voadora" se envolveu em uma série de acidentes. Não sabemos todos os detalhes desses acidentes, e não sabemos exatamente quantos foram. Era tempo de guerra, e muitos dos detalhes eram secretos e permanecem em segredo. O que sabemos é que houve um número significativo de incidentes semelhantes envolvendo muitas aeronaves individuais. Releituras históricas tendem a se concentrar em aeronaves danificadas em vez de ferimentos graves, mas o registro em tempo de guerra está incompleto.

Em cada caso, o que aconteceria é o seguinte: um B-17 viria para pousar, pousaria com sucesso, e então na pista ou taxiando de volta para o hangar, algo estranho aconteceria. Algo sério aconteceria. O B-17 estaria no chão e, de repente, o trem de pouso se retiraria, e o avião cairia na pista.

Em cada caso, os investigadores procurariam evidências de falha mecânica ou elétrica, e em cada caso, eles não conseguiam encontrar nenhuma. Então, o que eles concluíram foi que este era um caso de erro piloto, que os pilotos tinham erroneamente retraído o trem de pouso.

Aqui estão duas informações adicionais: os investigadores estavam corretos de que nenhuma falha mecânica ou elétrica havia ocorrido. Os acidentes continuaram acontecendo.

Essas informações podem levá-lo a ficar insatisfeito com a conclusão inicial alcançada sobre esses acidentes, talvez deixá-lo se perguntando se esta é toda a história. Neste módulo, vamos propor que algo esteja faltando nesta conclusão e nas investigações que o levaram a isso.