Créer un plan de réponse aux incidents dans Azure SRE Agent

Les plans de réponse aux incidents vous permettent d’acheminer automatiquement les incidents entrants vers l’agent personnalisé approprié en fonction de critères de filtre tels que la gravité, le service et le type d’incident. Au lieu de trier manuellement chaque alerte, vous définissez les conditions une fois et votre agent gère les incidents correspondants à leur arrivée.

Dans ce tutoriel, vous allez créer un plan de réponse à partir du canevas de l’agent, afficher un aperçu des incidents correspondants et utiliser le bouton bascule activer/désactiver pour contrôler le moment où le plan est actif.

Prerequisites

  • Agent avec une plateforme d’incident connectée (PagerDuty, ServiceNow ou Azure Monitor)
  • Au moins un agent personnalisé configuré
  • Rôle Contributeur ou Propriétaire sur la ressource de l’agent

Étape 1 : Ouvrir le canevas de l’agent

Dans le portail de l’agent SRE, sélectionnez votre agent. Dans la barre latérale gauche, accédez à BuilderCanevas de l’agent.

Avertissement

Lorsque vous connectez pour la première fois une plateforme d’incident, un plan de réponse de démarrage rapide par défaut peut être créé automatiquement. Avant de créer des plans personnalisés, basculez vers l’affichage Table et sélectionnez l’onglet Plans de réponse aux incidents à vérifier. Supprimez le plan de démarrage rapide s’il existe. Les plans qui se chevauchent peuvent entraîner l'acheminement des incidents de manière incorrecte ou bien le traitement des incidents à deux reprises.

Étape 2 : Créer un plan de réponse

Dans le canevas de l’agent, sélectionnez Créer dans la barre d’outils. Sélectionnez Déclencher le>plan de réponse aux incidents.

La boîte de dialogue créer s’ouvre.

Renseignez les critères de filtre. Les champs que vous voyez dépendent de votre plateforme d’incidents :

  • Nom du plan de réponse aux incidents : entrez un nom descriptif, tel que high-sev-api-trigger.

Pour Azure Monitor :

  • Gravité : sélectionnez un ou plusieurs niveaux de gravité.
  • Titre contient (facultatif) : ajoutez un mot clé pour affiner les correspondances.

Pour PagerDuty / ServiceNow :

  • Service impacté : sélectionnez le service que ce plan couvre, ou sélectionnez Tout.
  • Type d’incident : choisissez la classification des incidents, ou sélectionnez Tous les types d’incidents.
  • Priorité : sélectionnez un ou plusieurs niveaux de priorité, tels que P1 et P2.
  • Titre contient (facultatif) : ajoutez un mot clé pour affiner les correspondances.

Choisissez la configuration de la réponse :

  • Agent personnalisé de réponse : sélectionnez l’agent personnalisé qui gère les incidents correspondants.

  • Niveau d’autonomie de l’agent : choisissez la façon dont votre agent répond :

    • Autonome (par défaut) : votre agent examine et effectue de manière indépendante des mesures d’atténuation.
    • Révision : votre agent propose des actions pour votre approbation avant l’exécution.

Note

Lorsque vous sélectionnez Autonome (par défaut), une ℹicône ️ apparaît en regard de l’option.

Sélectionnez-le pour passer en revue l’accusé de réception du mode autonome : résumé de ce que signifie l’exécution autonome, y compris les limites de l’agent, les limitations du modèle IA et vos responsabilités. Pour plus d’informations, consultez Plans de réponse -> Configuration de l’agent personnalisé .

Conseil / Astuce

Commencez par le mode Révision pour les nouveaux plans si vous souhaitez valider le comportement d’investigation de votre agent avant d’accorder une autonomie totale. Les nouveaux plans sont autonomes par défaut.

Configurer le temps de recharge de la réinvestigation d’alerte (Azure Monitor uniquement)

Si votre plateforme d’incident est Azure Monitor, une section de délai de réinvestigation apparaît sous le niveau d’autonomie :

  • Activer (case à cocher, par défaut : activé) : Une fois activé, les déclenchements récurrents de la même règle d’alerte dans la fenêtre de recharge fusionnent dans le fil d’enquête existant au lieu d’en commencer un nouveau. Les threads résolus dans la fenêtre sont rouverts.

  • Temps de refroidissement (spinner, valeur par défaut : 3 heures, plage : 1 à 24) : durée pendant laquelle un thread est résolu ou fermé avant qu’un nouveau feu ne crée une nouvelle investigation au lieu de rouvrir le thread existant.

Conservez les valeurs par défaut pour la plupart des règles d’alerte. Désactivez le refroidissement uniquement pour les alertes critiques où chaque incendie a besoin d’une investigation indépendante.

Avertissement

La désactivation du refroidissement peut augmenter considérablement la consommation de jetons pour les règles d’alerte bruyantes. Une règle qui se déclenche toutes les 5 minutes engendrerait une nouvelle enquête chaque fois.

Renseignez tous les champs obligatoires : nom du plan, service affecté, type d’incident et au moins un niveau de priorité. Le bouton Suivant devient activé.

Étape 3 : Aperçu des incidents correspondants

Cliquez sur Suivant. L’aperçu des incidents affiche une table des incidents passés qui correspondent à vos critères de filtre.

Le tableau affiche :

  • Priorité, Date créée, Titre, ID d’incident et État pour chaque incident correspondant
  • Filtre d’intervalle de temps (valeur par défaut : 90 derniers jours) pour ajuster la fenêtre d’aperçu

Passez en revue les résultats:

  • Trop de correspondances ? Revenez en arrière et ajoutez une restriction de gravité ou un mot clé de titre.
  • Aucune correspondance ? Ce résultat est normal pour les nouveaux services. Votre plan fonctionne toujours pour les futurs incidents.
  • Numéro correct ? Votre filtre est bien réglé.

Sélectionnez Créer un plan de réponse aux incidents pour enregistrer le plan.

Checkpoint : Le plan apparaît dans la grille avec l'état activé (badge vert).

Étape 4 : Désactiver et activer un plan

Sélectionnez votre plan en cochant sa case dans la grille.

  1. Sélectionnez Désactiver dans la barre d’outils. Une boîte de dialogue de confirmation s’affiche.
  2. Sélectionnez Oui pour désactiver le plan.

Le badge d’état passe à Désactivé. Le scanneur cesse d'associer les incidents à ce plan. Votre configuration de filtre est conservée.

Pour réactiver le plan, procédez comme suit :

  1. Sélectionnez à nouveau le plan.
  2. Sélectionnez Activer. Elle prend effet immédiatement sans confirmation.

Le badge d’état revient sur activé.

Checkpoint: Le bouton bascule fonctionne : vous pouvez basculer un plan entre Activé et Désactivé sans le supprimer.

Étape 5 : Vérifier dans la grille des plans de réponse

Vous pouvez voir votre plan directement dans la grille des plans de réponse aux incidents avec le badge d’état, l’agent personnalisé, le filtre de gravité et les colonnes de niveau d’autonomie.

Point de contrôle : Votre plan apparaît dans la grille avec le statut correct, l’agent personnalisé et le niveau de gravité.

Conseil / Astuce

Utiliser le filtre Title contains pour tester en toute sécurité. Définissez-le pour qu’il corresponde à un titre d’incident de test spécifique (par exemple "[TEST] CPU spike") et créez un incident de test avec ce titre. Cette méthode valide le comportement de votre agent sans affecter le routage de production. Une fois vérifié, ajustez ou supprimez le filtre de titre.

Modifier ou supprimer un plan de réponse

Edit

  1. Dans la grille des plans de réponse, sélectionnez le lien ID de plan pour ouvrir le plan.
  2. La vue d’édition s’ouvre avec tous les paramètres actuels préremplis.
  3. Modifiez les critères de filtre, l’agent personnalisé ou le niveau d’autonomie.
  4. Sélectionnez Enregistrer pour appliquer vos modifications.

Delete

  1. Sélectionnez le plan à l’aide de la case à cocher dans la grille.
  2. Sélectionnez Supprimer dans la barre d’outils.
  3. Une boîte de dialogue de confirmation s’affiche. Sélectionnez Oui pour confirmer.

Les plans supprimés arrêtent immédiatement le routage des incidents. Les enquêtes actives que le plan a lancées continuent jusqu'à leur achèvement.

Ce que vous avez appris

  • Comment créer des plans de réponse à partir de la page plans de réponse aux incidents .
  • Comment les critères de filtre (gravité, service, type, titre) acheminent les incidents vers l’agent personnalisé approprié.
  • Comment prévisualiser les incidents historiques correspondants avant de valider.
  • Comment utiliser le bouton de bascule activer/désactiver pour arrêter et redémarrer le routage.
  • Comment vérifier les plans dans la vue de grille unifiée sur le Canevas Agent.
  • Différence entre les niveaux d’autonomie automatique et de révision.
Ressource Ce que vous apprenez
Plans de réponse aux incidents Comprendre la fonctionnalité complète des plans de réponse
Connecter une source de données Donnez à votre agent personnalisé l’accès aux données de journal
Examen approfondi Analyse de la cause racine complexe
Agents personnalisés Agents personnalisés spécialisés pour différents types d’incidents