Importância da resposta a incidentes
- 3 minutos
Com base nos princípios e práticas de monitoramento discutidos em outro módulo deste caminho de aprendizagem, você aprenderá agora o que fazer quando seu monitoramento revelar um problema. Se você receber um alerta acionável notificando que seus sistemas não estão funcionando conforme o esperado, esse é o gatilho para uma resposta para lidar com o problema.
O que é um incidente?
A resposta a incidentes diz respeito às ações que você toma quando ocorre um incidente, mas o que exatamente constitui um incidente? A resposta pode ser subjetiva; Mesmo todos os engenheiros não concordam sobre o que é um incidente. Se você fizer a pergunta em diferentes setores e organizações, obterá muitas respostas diferentes.
Alguns rotularão todas as interrupções como incidentes, independentemente de os clientes serem ou não afetados. No contexto deste módulo, podemos concordar que um incidente é definido como uma interrupção do serviço: uma ocorrência ou condição que afeta a capacidade do usuário de usar os serviços nos quais ele confia. Exemplos incluem quando os sistemas estão inativos ou estão funcionando mal de uma forma que afeta os clientes.
O que é resposta a incidentes?
Prevenir todos os problemas é um objetivo louvável, mas impossível. As coisas correm mal, por isso precisamos de um plano para limitar o impacto nos nossos utilizadores finais e devolver as operações à normalidade o mais rapidamente possível.
A chave é responder com urgência em vez de reagir. Uma reação tende a ser mais impulsiva e baseada no momento presente, sem considerar os efeitos a longo prazo. Uma resposta é bem pensada, organizada e baseada em informações.
A sua abordagem de resposta a incidentes determina a sua eficácia em:
- Entender o que está acontecendo (diagnosticar o problema).
- Triagem (determinação da urgência) e priorização do problema.
- Envolver os recursos certos para mitigar o(s) problema(s).
- Comunicar com as partes interessadas sobre o problema.
Depois de remediar o problema, você pode aprender com o incidente por meio de um processo de revisão pós-incidente. Esse é um tema importante, que tem um módulo inteiro de discussão à parte.
Medir o desempenho da resposta a incidentes
Pode estar familiarizado com o acrónimo TTR, que é definido de várias formas como "tempo para recuperar", "tempo para remediar" ou "tempo para restaurar". Todas estas variantes referem-se à mesma ideia: quanto tempo demora a trazer um serviço de volta a um estado em que volte a satisfazer as expectativas dos clientes.
Diferentes estruturas usam diferentes nomes para este conceito. A orientação atual da DORA refere-se ao tempo de recuperação após falha na implantação, uma das suas cinco métricas de desempenho na entrega de software. Mede a rapidez com que uma equipa pode recuperar de uma implementação falhada que causa um problema de produção, tornando-se um dos indicadores mais fortes da capacidade de resposta a incidentes.
Essa métrica é uma forma de medir o desempenho das equipes ao responder a incidentes. Quanto mais rapidamente restaurar o serviço, menor será o impacto da interrupção ou do serviço degradado nos seus utilizadores.
É importante saber o quão bem sua organização está lidando com a resposta a incidentes. A investigação da DORA continua a mostrar uma forte relação entre o desempenho da recuperação e o desempenho global na entrega de software. Em vez de tratar as bandas de benchmark como alvos fixos, use o tempo de recuperação para comparar serviços ao longo do tempo, identificar gargalos no seu processo de resposta e medir se as suas melhorias estão a funcionar.
Equipas com fortes práticas de resposta a incidentes recuperam mais rapidamente do que colegas com baixo desempenho e tendem a associar essa velocidade a um desempenho geral de entrega mais forte. Boa monitorização, propriedade clara, planos de resposta treinados e automação ajudam a reduzir o tempo de recuperação.
Porque é que as equipas com fortes práticas de resposta a incidentes recuperam muito mais rapidamente do que as restantes? É pelo menos parcialmente porque eles entendem a importância de ter um bom plano de resposta fundamental já em vigor quando as coisas inevitavelmente dão errado.
À medida que avança neste módulo, aprende sobre as características e o ciclo de vida de um incidente e como usar esse conhecimento para criar o seu próprio plano fundamental.