Porquê aprender com os incidentes?
- 5 minutos
Quando ocorre um incidente, a tua primeira reação provavelmente não é: "Excelente! Uma oportunidade de aprendizagem!" A sua prioridade imediata é perceber o que correu mal e corrigir o mais rapidamente possível, para reduzir o impacto nos seus clientes e utilizadores finais, como deve ser. Este é o processo incidente-resposta que discutimos em outro módulo neste caminho de aprendizagem.
No entanto, uma vez resolvido o incidente, é importante acompanhar e beneficiar da experiência. Se não tivermos tempo para aprender com o incidente, então ele continua sendo apenas uma perda de tempo, dinheiro, reputação e assim por diante; Mas se esse incidente pode ser uma fonte de informação (da forma como nenhuma outra fonte pode), podemos realmente tirar algum benefício dele.
A revisão pós-incidente faz parte da fase de análise do ciclo de vida incidente-resposta. Nem todas as avaliações pós-incidente são iguais. Existem diferentes maneiras de abordar o processo, e muito foco em certos aspetos do problema ou enquadrar as perguntas de maneira errada pode reduzir o valor da avaliação.
Nesta unidade, começas a pensar não só no porquê, mas também em como podes aprender melhor com os incidentes. Expandimos o "como" nas unidades seguintes.
Sistemas complexos falham
Tens de "aprender a aprender" com o fracasso não para o caso de os teus sistemas falharem, mas porque é certo que os teus sistemas falham.
No mundo moderno, a maioria dos sistemas com que trabalhamos hoje, especialmente num ambiente cloud, são complexos. Eles são compostos por muitas partes interconectadas que precisam trabalhar juntas, e o comportamento geral do sistema vem da interação dessas partes tanto quanto das próprias partes individuais.
A fiabilidade é o fio condutor que percorre todo este percurso de aprendizagem, mas os sistemas complexos nunca são cem por cento fiáveis. Tais sistemas comportam-se de formas interessantes e contraintuitivas. Eles são compostos por muitas partes, e muitas vezes o comportamento do sistema vem das interações entre essas partes tanto quanto das próprias partes.
Para uma discussão mais aprofundada deste tópico, um bom recurso é o artigo intitulado How Complex Systems Fail do Dr. Richard I. Cook. Ele é um anestesiologista e pesquisador que passou décadas trabalhando na segurança em sistemas complexos, especificamente na segurança do paciente no sistema de saúde. Neste artigo, ele explica o que é comum a sistemas complexos em todos os campos, da saúde às operações de software.
Alguns de seus pontos-chave são particularmente relevantes para o processo de análise de incidentes e revisão pós-incidente:
- Sistemas complexos contêm misturas variáveis de falhas latentes dentro deles. É impossível que seus sistemas sejam executados sem a presença de várias falhas. As falhas mudam constantemente por causa da mudança da tecnologia, da organização do trabalho e dos esforços para erradicar o fracasso. O seu sistema nunca está a funcionar perfeitamente.
- Sistemas complexos são executados em modo degradado. Sistemas complexos estão sempre funcionando como sistemas "quebrados". Continuam a "trabalhar" nesse estado porque contêm muitas redundâncias e as pessoas podem mantê-los funcionando apesar da presença de muitas falhas. As operações do sistema são dinâmicas, com componentes continuamente falhando e sendo substituídos.
- A catástrofe está sempre ao virar da esquina. A complexidade destes sistemas significa que falhas graves são, a longo prazo, inevitáveis. Sistemas complexos sempre possuem o potencial de falhas catastróficas, e isso pode acontecer a qualquer momento. É impossível eliminar este potencial porque faz parte da natureza inerente do sistema.
Prevenção e resposta
Em seus esforços para alcançar o nível desejado de confiabilidade para seus sistemas e serviços, você faz todo o possível para evitar que incidentes ocorram. No entanto, devido à complexidade desses sistemas, como explicado anteriormente, a prevenção nem sempre é possível.
Por causa dessa perceção, temos que adotar uma abordagem dupla para o fracasso: prevenção e, quando isso não é possível, preparação para responder de forma rápida e eficaz.
A prevenção e a resposta estão interligadas. Você pode ter experimentado isso quando sua organização implantou uma automação sofisticada que funcionou na maioria das vezes. Era ótimo que funcionasse a maior parte do tempo, mas quando falhava, provavelmente falhava de forma espetacular, o que tornava mais difícil para os operadores entenderem o que tinha dado errado.
Os sistemas em que você trabalha são compostos por mais do que a tecnologia. Na verdade, você não trabalha "em" ou "com" um sistema; você trabalha no sistema. Você faz parte do sistema. Sistemas complexos incluem componentes técnicos (hardware, software) e componentes humanos (pessoas e suas personalidades, treinamento e conhecimento). Os nossos sistemas são sistemas que incluem os seres humanos, e a forma como os humanos reagem quando as coisas correm mal é tão importante como evitar que as coisas corram mal.
Linguagem
A língua é importante. Aprende-se neste módulo que somos específicos quanto aos termos que usamos e quais não usamos intencionalmente.
As palavras que usamos afetam a forma como pensamos sobre o que aconteceu em um incidente e podem mudar drasticamente o que e o quanto aprendemos. Esta descoberta vem de pesquisas em indústrias críticas para a segurança, como aviação, medicina, busca e salvamento, combate a incêndios e muito mais.
Coletivamente, este campo de pesquisa tornou-se conhecido como Engenharia de Resiliência (RE).
Temos muito a aprender sobre Engenharia de Resiliência no setor de tecnologia. Mais adiante neste módulo, partilhamos algumas coisas úteis que aprendemos com a literatura sobre RE, incluindo quatro das armadilhas mais comuns em que as pessoas caem ao tentar aprender com o fracasso; Mas primeiro, precisamos de definir alguns termos.