A importância da resposta a incidentes
- 3 minutos
Com base nos princípios e práticas de monitoramento discutidos em outro módulo desse roteiro de aprendizagem, agora você aprenderá o que fazer quando o monitoramento revelar um problema. Se você receber um alerta acionável informando que seus sistemas não estão operando conforme o esperado, esse é o gatilho para uma resposta para lidar com o problema.
O que é um incidente?
A resposta a incidentes é sobre as ações que você toma quando ocorre um incidente, mas o que exatamente constitui um incidente? A resposta pode ser subjetiva; mesmo todos os engenheiros não concordam com o que é um incidente. Se você fizer a pergunta em diferentes setores e organizações, obterá muitas respostas diferentes.
Alguns rotularão todas as interrupções como incidentes, independentemente de os clientes serem afetados ou não. No contexto deste módulo, podemos concordar que um incidente é definido como uma interrupção de serviço: uma ocorrência ou condição que afeta a capacidade do usuário de usar os serviços nos quais ele depende. Exemplos incluem quando os sistemas estão inativos ou estão funcionando mal de uma maneira que afeta os clientes.
O que é resposta a incidentes?
Evitar todos os problemas é um objetivo louvável, mas impossível. As coisas dão errado, portanto, precisamos de um plano para limitar o impacto sobre nossos usuários finais e retornar operações ao normal o mais rápido possível.
A chave é responder com urgência em vez de reagir. Uma reação tende a ser mais impulsiva e baseada no momento presente, sem considerar os efeitos a longo prazo. Uma resposta é bem pensada, organizada e baseada em informações.
Sua abordagem de resposta a incidentes determina sua eficácia em:
- Noções básicas sobre o que está acontecendo (diagnosticando o problema).
- Triagem (determinando a urgência) e priorização do problema.
- Envolver os recursos certos para atenuar os problemas.
- Comunicando com as partes interessadas sobre o problema.
Depois de corrigir o problema, você pode aprender com o incidente por meio de um processo de revisão pós-incidente. Esse é um assunto importante, que tem um módulo inteiro separado que vale a pena discutir.
Medindo o desempenho da resposta a incidentes
Você pode estar familiarizado com o acrônimo TTR, que é definido várias vezes como "tempo de recuperação", "hora de corrigir" ou "hora de restaurar". Todas essas variantes referem-se à mesma ideia: quanto tempo leva para trazer um serviço de volta a um estado em que ele atende novamente às expectativas dos clientes.
Estruturas diferentes usam nomes diferentes para esse conceito. As diretrizes atuais do DORA referem-se ao tempo de recuperação de implantação com falha, uma de suas cinco métricas de desempenho de entrega de software. Ele mede a rapidez com que uma equipe pode se recuperar de uma implantação com falha que causa um problema de produção, tornando-a um dos indicadores mais fortes da capacidade de resposta a incidentes.
Essa métrica é uma maneira de medir o desempenho das equipes ao responder a incidentes. Quanto mais rápido você restaurar o serviço, menor o impacto que a interrupção ou o serviço degradado tem sobre seus usuários.
É importante saber o quão bem sua organização está lidando com a resposta a incidentes. A pesquisa do DORA continua mostrando uma forte relação entre o desempenho de recuperação e o desempenho geral da entrega de software. Em vez de tratar as faixas de parâmetro de comparação como destinos fixos, use o tempo de recuperação para comparar serviços ao longo do tempo, identificar gargalos em seu processo de resposta e medir se suas melhorias estão funcionando.
As equipes com práticas de resposta a incidentes fortes se recuperam mais rápido do que os pares de baixo desempenho e tendem a emparelhar essa velocidade com um desempenho de entrega mais forte no geral. Um bom monitoramento, propriedade clara, planos de resposta praticados e automação ajudam a reduzir o tempo de recuperação.
Por que as equipes com práticas fortes de resposta a incidentes se recuperam muito mais rapidamente do que o resto? É pelo menos parcialmente porque eles entendem a importância de ter um bom plano de resposta fundamental já em vigor quando as coisas inevitavelmente dão errado.
Ao percorrer este módulo, você aprenderá sobre as características e o ciclo de vida de um incidente e como usar esse conhecimento para criar seu próprio plano fundamental.