Importancia de la respuesta ante incidentes
- 3 minutos
Basándose en los principios y prácticas de supervisión que se describen en otro módulo de esta ruta de aprendizaje, ahora aprenderá qué hacer cuando la supervisión muestre un problema. Si recibe una alerta que requiera acción y le notifica que los sistemas no funcionan según lo previsto, es el inicio de una respuesta para resolver el problema.
¿Qué es un incidente?
La respuesta a incidentes se refiere a las acciones que se realizan cuando se produce un incidente, pero ¿qué constituye exactamente un incidente? La respuesta puede ser subjetiva; incluso todos los ingenieros no están de acuerdo en lo que es un incidente. Si formula la pregunta en diferentes sectores y organizaciones, obtendrá muchas respuestas diferentes.
Algunos etiquetarán todas las interrupciones como incidentes, independientemente de si los clientes se ven afectados o no. En el contexto de este módulo, podemos aceptar que un incidente se define como una interrupción del servicio: una aparición o condición que afecta a la capacidad del usuario de usar los servicios en los que se basan. Algunos ejemplos son cuando los sistemas están inactivos o no funcionan correctamente de una manera que afecta a los clientes.
¿Qué es la respuesta ante incidentes?
Prevenir todos los problemas es un objetivo muy agradable, pero imposible. Las cosas van mal, por lo que necesitamos un plan para limitar el impacto en nuestros usuarios finales y devolver las operaciones a la normalidad lo más rápido posible.
La clave es responder con urgencia en lugar de reaccionar. Una reacción tiende a ser más impulsiva y basada en el momento presente, sin tener en cuenta los efectos a largo plazo. Una respuesta está bien pensada, organizada y basada en la información.
El enfoque de respuesta a incidentes determina su eficacia en:
- Comprender lo que sucede (diagnosticar el problema).
- Evaluar (determinar la urgencia) y priorizar el problema.
- Movilización de los recursos adecuados para mitigar el/los problema(s).
- Comunicarse con las partes interesadas sobre el problema.
Después de corregir el problema, puede aprender del incidente a través de un proceso de revisión posterior al incidente. Es un tema importante, que tiene un módulo independiente completo que merece la pena discutir.
Medición del rendimiento de la respuesta a incidentes
Es posible que esté familiarizado con el acrónimo TTR, que se define de forma diversa como "tiempo de recuperación", "tiempo de corrección" o "tiempo de restauración". Todas estas variantes hacen referencia a la misma idea: cuánto tiempo se tarda en devolver un servicio a un estado en el que cumple de nuevo las expectativas de los clientes.
Los distintos marcos usan nombres diferentes para este concepto. La guía actual de DORA hace referencia al tiempo de recuperación de implementación con errores, una de sus cinco métricas de rendimiento de entrega de software. Mide la rapidez con la que un equipo puede recuperarse de una implementación con errores que provoca un problema de producción, lo que lo convierte en uno de los indicadores más sólidos de la funcionalidad de respuesta a incidentes.
Esta métrica es una manera de medir el rendimiento de los equipos al responder a incidentes. Cuanto más rápido restaure el servicio, menor impacto tendrá la interrupción o el servicio degradado en los usuarios.
Es importante saber qué tan bien su organización controla la respuesta a incidentes. La investigación de DORA continúa mostrando una relación sólida entre el rendimiento de la recuperación y el rendimiento general de la entrega de software. En lugar de tratar las bandas de pruebas comparativas como objetivos fijos, use el tiempo de recuperación para comparar los servicios con el tiempo, identificar cuellos de botella en el proceso de respuesta y medir si las mejoras funcionan.
Los equipos con prácticas sólidas de respuesta a incidentes se recuperan más rápido que los sistemas del mismo nivel de bajo rendimiento y tienden a emparejar esa velocidad con un rendimiento de entrega más sólido en general. Una buena supervisión, una propiedad clara, los planes de respuesta practicados y la automatización ayudan a reducir el tiempo de recuperación.
¿Por qué los equipos con prácticas sólidas de respuesta a incidentes se recuperan mucho más rápidamente que el resto? Es al menos parcialmente porque comprenden la importancia de tener un buen plan de respuesta fundamental ya implementado cuando las cosas inevitablemente van mal.
A medida que pase por este módulo, obtendrá información sobre las características y el ciclo de vida de un incidente y cómo usar ese conocimiento para crear su propio plan fundamental.