Een reactieplan voor incidenten maken in Azure SRE Agent

Met reactieplannen voor incidenten kunt u binnenkomende incidenten automatisch routeren naar de juiste aangepaste agent op basis van filtercriteria zoals ernst, service en incidenttype. In plaats van elke waarschuwing handmatig te sorteren, definieert u eenmaal de voorwaarden en verwerkt uw agent overeenkomende incidenten wanneer deze binnenkomen.

In deze zelfstudie maakt u een reactieplan op basis van agentcanvas, bekijk overeenkomende incidenten en gebruikt u de wisselknop in-/uitschakelen om te bepalen wanneer het plan actief is.

Vereiste voorwaarden

  • Een agent met een incidentplatform dat is verbonden (PagerDuty, ServiceNow of Azure Monitor)
  • Ten minste één aangepaste agent geconfigureerd
  • Rol Bijdrager of Eigenaar van de agentresource

Stap 1: Het agentcanvas openen

Selecteer uw agent in de SRE-agentportal. Ga in de linkerzijbalk naar BuilderAgent Canvas.

Waarschuwing

Wanneer u voor het eerst verbinding maakt met een incidentplatform, wordt er mogelijk automatisch een standaard quickstart-reactieplan gemaakt. Voordat u aangepaste plannen maakt, schakelt u over naar de tabelweergave en selecteert u het tabblad Incidentresponsplannen om te controleren. Verwijder het quickstart-plan als dit bestaat. Overlappende plannen kunnen ertoe leiden dat incidenten onjuist worden gerouteerd of tweemaal worden verwerkt.

Stap 2: Een nieuw antwoordplan maken

In het Agent Canvas, selecteer Maken in de werkbalk. SelecteerReactieplan voor triggerincidenten>.

Het dialoogvenster Maken wordt geopend.

Vul de filtercriteria in. De velden die u ziet, zijn afhankelijk van uw incidentplatform:

  • Naam van reactieplan voor incidenten: voer een beschrijvende naam in, zoals high-sev-api-trigger.

Voor Azure Monitor:

  • selecteer een of meer ernstniveaus.
  • Titel bevat (optioneel): Voeg een trefwoord toe om resultaten te verfijnen.

Voor PagerDuty/ServiceNow:

  • Betrokken service: selecteer de service die door dit plan wordt behandeld of selecteer Alles.
  • Incidenttype: kies de incidentclassificatie of selecteer Alle incidenttypen.
  • Prioriteit: Selecteer een of meer prioriteitsniveaus, zoals P1 en P2.
  • Titel bevat (optioneel): Voeg een trefwoord toe om overeenkomsten te beperken.

Kies de antwoordconfiguratie:

  • Aangepaste antwoordagent: selecteer de aangepaste agent die overeenkomende incidenten verwerkt.

  • Niveau van autonomie van agent: kies hoe uw agent reageert:

    • Autonoom (Standaard): je agent onderzoekt onafhankelijk en voert risicobeperking uit.
    • Beoordeling: Uw agent stelt acties voor uw goedkeuring voor voordat u deze uitvoert.

Opmerking

Wanneer u Autonoom (standaard) selecteert, wordt er naast de optie een ℹpictogram (*) weergegeven.

Selecteer deze om de bevestiging van de autonome modus te bekijken: een samenvatting van wat autonome uitvoering betekent, inclusief agentgrenzen, beperkingen van AI-modellen en uw verantwoordelijkheden. Zie Antwoordplannen -> Aangepaste agentconfiguratie voor meer informatie.

Aanbeveling

Begin met de beoordelingsmodus voor nieuwe plannen als u het onderzoeksgedrag van uw agent wilt valideren voordat u volledige autonomie verleent. Nieuwe plannen zijn standaard ingesteld op de Autonome modus.

Cooldown voor het heronderzoek van waarschuwingen configureren (alleen Azure Monitor)

Als uw incidentplatform Azure Monitor is, verschijnt er onder het autonomieniveau een sectie Onderzoek-cooldown:

  • Inschakelen (selectievakje, standaard: ingeschakeld): Wanneer deze optie is ingeschakeld, worden terugkerende waarschuwingen van dezelfde regel binnen het cooldown-venster samengevoegd met de bestaande onderzoeksthread in plaats van dat er een nieuwe onderzoeksthread wordt gestart. Opgeloste threads in het venster worden opnieuw geopend.

  • Afkoeltijd (spinner, standaard: 3 uur, bereik: 1-24): Hoe lang nadat een thread is opgelost of gesloten voordat een nieuwe brand een nieuw onderzoek creëert in plaats van de bestaande thread opnieuw te openen.

Laat de standaardwaarden voor de meeste waarschuwingsregels staan. Schakel de afkoeling alleen uit voor kritieke waarschuwingen waarbij elke brand onafhankelijk onderzoek nodig heeft.

Waarschuwing

Als u de afkoeling uitschakelt, kan het tokenverbruik voor luidruchtige waarschuwingsregels aanzienlijk toenemen. Een regel die elke 5 minuten wordt geactiveerd, zou elke keer een nieuw onderzoek starten.

Vul alle vereiste velden in: plannaam, betrokken service, incidenttype en ten minste één prioriteitsniveau. De knop Volgende wordt ingeschakeld.

Stap 3: Voorbeeld van overeenkomende incidenten bekijken

Kies Volgende. In de voorbeeldweergave van incidenten ziet u een tabel met eerdere incidenten die voldoen aan uw filtercriteria.

In de tabel wordt het volgende weergegeven:

  • Prioriteit, datum gemaakt, titel, incident-id en status voor elk overeenkomend incident
  • Een tijdsbereikfilter (standaard: Afgelopen 90 dagen) om het voorbeeldvenster aan te passen

Controleer de resultaten:

  • Te veel overeenkomsten? Ga terug en voeg een ernstbeperking of titelwoord toe.
  • Geen overeenkomsten? Dit resultaat is normaal voor nieuwe services. Uw plan werkt nog steeds voor toekomstige incidenten.
  • Juist nummer? Uw filter is goed afgestemd.

Selecteer Plan voor het reageren op incidenten maken om het plan op te slaan.

Checkpoint: Het plan wordt weergegeven in het raster met Status Aan (groene badge).

Stap 4: Een plan in- en uitschakelen

Selecteer uw plan door het selectievakje ervan aan te vinken in de tabel.

  1. Selecteer Uitschakelen in de werkbalk. Er wordt een bevestigingsvenster weergegeven.
  2. Selecteer Ja om het plan uit te schakelen.

De statusbadge wordt gewijzigd in Uit. De scanner stopt met het afstemmen van incidenten op dit plan. De filterconfiguratie blijft behouden.

Voer de volgende stappen uit om het plan opnieuw in te schakelen:

  1. Selecteer het plan opnieuw.
  2. Selecteer Inschakelen. Het wordt onmiddellijk van kracht zonder bevestiging.

De statusbadge keert terug naar Aan.

Checkpoint: De wisselknop werkt- u kunt een abonnement tussen Aan en Uit schakelen zonder deze te verwijderen.

Stap 5: Controleren in het raster van de responsplannen

U kunt uw plan rechtstreeks zien in het paginaraster van de reactieplannen voor incidenten met de statusbadge, aangepaste agent, ernstfilter en kolommen op niveau van autonomie.

Checkpoint: Uw plan wordt weergegeven in het raster met de juiste status, aangepaste agent en ernst.

Aanbeveling

Gebruik de Titel bevat filter om veilig te testen. Stel deze in op een specifieke titel van een testincident (bijvoorbeeld "[TEST] CPU spike") en maak een testincident met die titel. Met deze methode wordt het gedrag van uw agent gevalideerd zonder dat dit van invloed is op productieroutering. Pas het titelfilter aan of verwijder het na verificatie.

Een reactieplan bewerken of verwijderen

Edit

  1. Selecteer in de antwoordplannen grid de plan-ID link om het plan te openen.
  2. De bewerkingsweergave wordt geopend met alle huidige instellingen vooraf ingevuld.
  3. Wijzig de filtercriteria, de aangepaste agent, of het autonomieniveau.
  4. Selecteer Opslaan om uw wijzigingen toe te passen.

Delete

  1. Schakel het plan in met behulp van het selectievakje in het raster.
  2. Selecteer Verwijderen op de werkbalk.
  3. Er wordt een bevestigingsvenster weergegeven. Selecteer Ja om te bevestigen.

Verwijderde plannen zorgen ervoor dat routeringsincidenten onmiddellijk stoppen. Actieve onderzoeken die door het plan zijn gestart, worden voortgezet tot voltooiing.

Wat u hebt geleerd

  • Hoe u reactieplannen maakt op basis van de pagina Incidentresponsplannen .
  • Hoe filtercriteria (ernst, service, type, titel) incidenten naar de juiste aangepaste software-agent routeren.
  • Hoe overeenkomende historische incidenten te bekijken voordat u deze vastlegt.
  • De wisselknop in-/uitschakelen gebruiken om de routering te onderbreken en hervatten.
  • Hoe plannen te verifiëren in de uniforme rasterweergave in de Agent Canvas.
  • Het verschil tussen de niveaus van autonomie en beoordelingsautonomie.
Hulpbron Wat u leert
Reactieplannen voor incidenten Begrijp de volledige mogelijkheden van de responsplannen
Een gegevensbron verbinden Uw aangepaste agent toegang geven tot logboekgegevens
Grondig onderzoek Complexe hoofdoorzaakanalyse
Aangepaste agents Gespecialiseerde maatwerkagents voor verschillende incidenttypen