Características e ciclo de vida de um incidente
- 4 minutos
Como você aprendeu na última unidade, um incidente é uma interrupção de serviço que afeta seus clientes e usuários finais. Os incidentes apresentam-se de várias formas, desde desacelerações de desempenho que frustram os utilizadores ("slow is the new down") até falhas do sistema que tornam o serviço ou site indisponível durante algum tempo.
Características de um incidente
Os incidentes são inesperados e parecem ocorrer na pior altura possível (como às 2:00 da manhã, ou quando estás profundamente imerso num projeto importante). É por isso que os incidentes são comumente temidos e evitados, a ponto de as pessoas às vezes minimizarem a importância de um incidente. A pressão interna é por vezes tão grande numa organização que há a tentação de rotular mal ou não reportar uma perturbação por receio de repreensão.
No mínimo, os incidentes geram trabalho não planeado e, como passas a maior parte do teu tempo a realizar tarefas planeadas, tendo uma boa noção do que é suposto fazer, provavelmente consideras os incidentes como algo negativo. No entanto, há outra forma de ver: os incidentes são realmente investimentos em fornecer o valor que se pretende entregar aos utilizadores finais. Seja qual for a causa do incidente ou a extensão do impacto, todos os incidentes têm uma coisa em comum: podem proporcionar experiências de aprendizagem valiosas.
Você deve ver os incidentes como o pulso de seus sistemas. Eles dizem mais sobre o sistema do que você entendia anteriormente, e esse conhecimento é uma coisa boa. Quando você tem uma base sólida de monitoramento e sabe mais sobre o que está acontecendo em seu sistema, isso inevitavelmente gerará mais alertas e incidentes e oportunidades para responder. Pelo menos, os incidentes dizem-lhe o que se passa e, assim, aumentam a sua consciência operacional. Num módulo anterior sobre monitorização, sugerimos que este era um importante precursor do trabalho de fiabilidade.
Ciclo de vida de um incidente
Se quiser melhorar a maturidade da sua resposta a incidentes e recuperar mais rapidamente de incidentes, deve olhar para além da ideia de interrupção ou incidente de serviço como uma linha temporal linear simples e abordá-la a partir de uma perspetiva cíclica.
Você pode separar o ciclo de vida de um incidente em fases distintas que logicamente seguem uma após a outra em um ciclo que retorna ao início. Cada vez que passa por este ciclo (e fá-lo-á inúmeras vezes), se o gerir corretamente, é possível regressar ao início com um maior entendimento dos seus sistemas. Com algum trabalho intencional, também pode estar mais bem preparado para responder de forma rápida e eficaz da próxima vez que ocorrer um incidente.
Fases de um incidente
As fases individuais do processo de resposta a incidentes parecem um pouco diferentes, dependendo do modelo usado. Para fins deste módulo, há cinco fases pelas quais você passa na resposta a um incidente:
- Deteção: Esta fase é onde entra em jogo o conhecimento de monitorização de um módulo anterior neste percurso de aprendizagem. Suas ferramentas de monitoramento coletam as informações dos logs, analisam essas informações de acordo com os objetivos centrados no cliente que você configurou e enviam alertas acionáveis para que você saiba que a intervenção humana é necessária.
- Resposta: Esta fase é o que acontece depois que você e sua equipe recebem esse alerta. Vamos mergulhar nesta fase em detalhes neste módulo, então haverá muito mais a dizer sobre essa ideia em apenas um momento.
- Remediação: Esta fase é onde você restaura os sistemas para a funcionalidade normal. Como você faz isso depende da causa da interrupção do serviço. Colocar o serviço de volta em funcionamento e disponível para seus clientes é sua principal prioridade. No entanto, o seu trabalho não para quando isso é feito.
- Análise: Para obter valor duradouro dos incidentes, você precisa aprender com eles. Esta fase é o processo de reunir as informações sobre o que aconteceu e quando durante o incidente e ver o que você pode aprender com isso fazendo as perguntas certas. Há um módulo inteiro sobre Aprender com o Fracasso que aborda esta fase.
- Prontidão: Você deve incorporar as lições aprendidas na fase de análise em sua prática de operações. Se houver itens de ação que ajudem a evitar uma interrupção semelhante no futuro, eles também farão parte dessa fase.
Antes de criar um plano de resposta a incidentes, você precisa entender as características e o valor dos incidentes e estar familiarizado com as fases do ciclo de vida do incidente. O próximo passo é garantir que sua estratégia de resposta seja construída sobre uma base sólida.