Importance de la réponse aux incidents
- 3 minutes
En s’appuyant sur les principes et les pratiques de surveillance abordés dans un autre module à partir de ce parcours d’apprentissage, vous allez maintenant apprendre à faire quand votre surveillance révèle un problème. Si vous recevez une alerte actionnable vous informant que vos systèmes ne fonctionnent pas comme prévu, c’est le déclencheur d’une réponse pour résoudre le problème.
Qu’est-ce qu’un incident ?
La réponse aux incidents concerne les actions que vous effectuez lorsqu’un incident se produit, mais qu’est-ce qui constitue exactement un incident ? La réponse peut être subjective ; même tous les ingénieurs ne sont pas d’accord sur ce qu’est un incident. Si vous posez la question dans différents secteurs et organisations, vous obtenez de nombreuses réponses différentes.
Certains étiquetront toutes les interruptions en tant qu’incidents, que les clients soient affectés ou non. Dans le contexte de ce module, nous pouvons accepter qu’un incident est défini comme une interruption de service : une occurrence ou une condition qui affecte la capacité de l’utilisateur à utiliser les services sur lesquels il s’appuie. Par exemple, les systèmes sont en panne ou sont défectueux d’une manière qui a un impact sur les clients.
Qu’est-ce que la réponse aux incidents ?
Prévenir tous les problèmes est un objectif louable, mais impossible. Les choses vont mal, donc nous avons besoin d’un plan pour limiter l’impact sur nos utilisateurs finaux et retourner des opérations normales aussi rapidement que possible.
La clé est de répondre avec urgence plutôt que de réagir. Une réaction tend à être plus impulsive et basée dans le moment présent, sans tenir compte des effets à long terme. Une réponse est bien pensée, organisée et basée sur des informations.
Votre approche de réponse aux incidents détermine votre efficacité à :
- Comprendre ce qui se passe (diagnostiquer le problème).
- Triage (détermination de l’urgence) et hiérarchisation du problème.
- Engagement des ressources appropriées pour atténuer le ou les problèmes.
- Communiquer avec les parties prenantes sur le problème.
Une fois que vous avez corrigé le problème, vous pouvez ensuite apprendre à partir de l’incident via un processus de révision post-incident. Il s’agit d’un sujet important, qui a un module distinct de discussion.
Mesure des performances de réponse aux incidents
Vous pouvez être familiarisé avec l’acronyme TTR, qui est défini de manière variée comme « temps de récupération », « temps de correction », ou « heure de restauration ». Toutes ces variantes font référence à la même idée : combien de temps il faut pour ramener un service à un état où il répond à nouveau aux attentes des clients.
Différentes infrastructures utilisent des noms différents pour ce concept. Les recommandations actuelles de DORA font référence au temps de récupération du déploiement ayant échoué, l’un de ses cinq indicateurs de performance de livraison de logiciels. Elle mesure la rapidité avec laquelle une équipe peut récupérer à partir d’un déploiement défaillant qui provoque un problème de production, ce qui en fait l’un des indicateurs les plus forts de la fonctionnalité de réponse aux incidents.
Cette métrique est un moyen de mesurer le niveau de performance des équipes lors de la réponse aux incidents. Plus vous rétablissez rapidement le service, moins la panne ou le service dégradé n'impacte vos utilisateurs.
Il est important de savoir comment votre organisation gère la réponse aux incidents. La recherche de DORA continue de montrer une relation forte entre les performances de récupération et les performances globales de la livraison de logiciels. Au lieu de traiter les bandes de référence comme des cibles fixes, utilisez le temps de récupération pour comparer les services au fil du temps, identifier les goulots d’étranglement dans votre processus de réponse et mesurer si vos améliorations fonctionnent.
Teams avec des pratiques fortes de réponse aux incidents récupèrent plus rapidement que leurs pairs à faible rendement et tendent à associer cette rapidité à des performances de livraison plus fortes dans l’ensemble. Une bonne surveillance, une propriété claire, des plans de réponse pratiqués et une automatisation permettent de réduire le temps de récupération.
Pourquoi les équipes avec des pratiques de réponse aux incidents fortes récupèrent-elles beaucoup plus rapidement que le reste ? C’est au moins partiellement parce qu’ils comprennent l’importance d’avoir un bon plan de réponse fondamental déjà en place lorsque les choses vont inévitablement mal.
À mesure que vous parcourez ce module, vous découvrez les caractéristiques et le cycle de vie d’un incident et comment utiliser ces connaissances pour créer votre propre plan de base.