O que é uma revisão pós-incidente?
- 3 minutos
Já mencionamos isso em um módulo anterior neste caminho de aprendizagem, mas como uma revisão rápida, os incidentes têm um ciclo de vida semelhante ao seguinte:
Um incidente passa por estas fases:
- Deteção: Quando notamos pela primeira vez que há um problema (idealmente do nosso sistema de monitoramento antes que um cliente perceba ou reclame);
- Resposta: Entramos em ação, envolvemos nosso processo de resposta a incidentes, tentamos triar a situação e respondemos com urgência.
- Remediação: Trabalhamos para determinar o problema e trabalhamos para trazer o sistema ou serviço de volta ao funcionamento.
- Análise: Após o incidente, tentamos aprender com a experiência, talvez determinando coisas que podemos querer mudar no sistema ou no nosso processo.
- Prontidão: Fazemos alterações com base no que aprendemos que podem melhorar a nossa fiabilidade e o contexto (processos, etc.) à sua volta.
O tópico deste módulo ocorre em grande parte durante a fase de análise. Aprendemos com os incidentes conduzindo uma revisão pós-incidente.
Você deve fazer uma revisão pós-incidente após cada incidente significativo.
Embora a revisão formal ocorra após as fases de resposta e remediação, você começa a preparar o terreno para sua análise assim que recebe um alerta acionável de que um incidente ocorreu, informa os membros da equipe e inicia uma conversa sobre o incidente.
Definição da revisão pós-incidente
Nem todos usam exatamente a mesma linguagem para se referir a esse processo. Algumas pessoas chamam-lhe:
- Revisão pós-incidente
- Revisão da aprendizagem pós-incidente
- Autópsia
- Retrospetiva
Neste módulo, usamos o termo "revisão pós-incidente".
Além disso, nem todos fazem exatamente da mesma maneira. Por exemplo, muitas pessoas começam colocando todas as pessoas que tiveram alguma conexão com o incidente em uma sala, enquanto outras pessoas optam por criar a avaliação por meio de entrevistas individuais e, em seguida, relatar ao grupo.
O último método geralmente funciona melhor quando as configurações de grupo em sua organização dificultam uma única reunião maior. Por exemplo, se a dinâmica de grupo, as personalidades, a natureza distribuída de uma equipe espalhada por fusos horários interferem em ter esse tipo de reunião, pode ser mais fácil trabalhar na revisão de uma maneira diferente. Você deve fazer o que funciona melhor para sua equipe e as circunstâncias.
Seja como for que lhe chame e como quer que o organize, há três pontos-chave:
- Você deve tentar incluir todas as pessoas envolvidas na resposta ao incidente na revisão pós-incidente. Incluir todas estas vozes é importante porque diferentes pessoas têm perspetivas e recordações distintas do mesmo evento.
- Deve realizar a revisão pós-incidente assim que possível após a resolução do evento, idealmente dentro de um ou dois dias, se possível. A memória humana é notoriamente pouco fiável; As pessoas esquecem-se das coisas. Quanto mais tempo passa após um evento, menos detalhadas e específicas tendem a ser as memórias.
- Uma revisão de incidentes deve ser isenta de culpa. Falaremos mais sobre isso na próxima unidade.
Objetivo da revisão pós-incidente
O objetivo da revisão pós-incidente é para que sua equipe possa aprender e melhorar. Queres aprender sobre os sistemas e sobre as coisas que implementaste que funcionaram ou não, para poderes fazer melhorias.
Ao mesmo tempo, deve lembrar-se de que as ações que gera (relatórios, tarefas, relatórios de erros, tickets, feedback) são úteis, mas são secundárias ao objetivo do processo, que é aprender e melhorar. A geração de uma lista de itens de ação é, na melhor das hipóteses, um objetivo secundário.