Piani di risposta agli eventi imprevisti nell'agente SRE di Azure

Suggerimento

  • Il giusto agente personalizzato gestisce automaticamente ogni tipo di incidente senza intervento umano alle 3 AM
  • Filtrare in base alla gravità, al servizio, al titolo e al tipo in modo che corrisponda esattamente agli eventi imprevisti di cui si è preoccupati
  • Attivare o disattivare qualsiasi piano con un'unica azione. È possibile sospendere il routing durante la manutenzione senza cancellarlo.
  • Visualizzare tutti i piani, gli stati e i mapping degli agenti personalizzati in una griglia unificata

Il problema: un manuale per ogni incendio

Non tutti gli eventi imprevisti sono uguali. Un danneggiamento del database P1 richiede un'analisi approfondita dei log e un'azione immediata. Una riduzione delle prestazioni P3 richiede un rapido controllo delle metriche. Un rollback della distribuzione richiede il contesto del codice sorgente e la cronologia di distribuzione.

Tuttavia, la maggior parte dell'automazione tratta tutti gli eventi imprevisti in modo identico usando gli stessi passaggi di indagine, gli stessi strumenti e la stessa urgenza. Il tecnico su chiamata finisce per essere il router, decidendo quale runbook seguire, quali dashboard controllare e come rispondere urgentemente. Alle 3:00, il sovraccarico decisionale aumenta direttamente l'MTTR.

Funzionamento dei piani di risposta

I piani di risposta connettono i filtri degli eventi imprevisti agli agenti personalizzati. Quando arriva un evento imprevisto, l'agente lo valuta in base ai piani di risposta attivi e lo instrada automaticamente all'agente personalizzato corretto.

Ogni piano di risposta ha due parti:

Parte Che cosa controlla Esempio
Filtro eventi imprevisti Quali incidenti abbinare Eventi imprevisti P1 e P2 sul servizio api-gateway
Gestore di agenti personalizzato Come rispondere Usare l'agente api-expert personalizzato in modalità di revisione

Criteri di filtro

Criteri Cosa filtra Esempio
Gravità/Priorità Uno o più livelli di gravità P1 + P2 (selezione multipla)
Servizio interessato Quale servizio è interessato api-gateway, payment-service
Tipo di incidente Classificazione Predefinito, Maggiore, Sicurezza
Titolo contiene Corrispondenza della parola chiave nel titolo dell'evento imprevisto "CPU spike", "Out of memory"

Selezionare più livelli di gravità in un singolo piano. Il tuo agente associa gli incidenti a uno qualsiasi dei livelli selezionati.

Configurazione dell'agente personalizzato

Ogni piano specifica la modalità di risposta dell'agente:

Impostazione Options Impostazione predefinita
Agente personalizzato di risposta Qualsiasi agente personalizzato configurato Preselizionato durante la creazione da un grafico
Livello di autonomia dell'agente Autonomo, Revisione Autonomo
  • Autonomo: l'agente analizza gli eventi imprevisti ed esegue in modo indipendente le modifiche alle risorse o alla mitigazione con le autorizzazioni necessarie.
  • Verifica : l'agente diagnostica gli eventi imprevisti, quindi attenua o modifica le risorse solo dopo la revisione e l'approvazione delle azioni proposte.

Tempo di raffreddamento per la ripetizione dell'indagine sugli avvisi (solo Monitoraggio di Azure)

Per i piani di risposta di Monitoraggio di Azure, controllare come l'agente gestisce le attivazioni ricorrenti della stessa regola di avviso. Per impostazione predefinita, quando la stessa regola di avviso viene nuovamente attivata all'interno della finestra di raffreddamento, il nuovo avviso viene unito al thread di indagine esistente anziché avviarne uno nuovo. Questo approccio consente di risparmiare l'utilizzo dei token e di mantenere pulito l'elenco degli eventi imprevisti.

Impostazione Options Impostazione predefinita
Tempo di raffreddamento per la ripetizione dell'indagine Abilita/Disabilita Enabled
Tempo di raffreddamento 1-24 ore 3 ore

Quando il cooldown è abilitato (impostazione predefinita):

  • Avvisi ricorrenti della stessa regola si uniscono al thread esistente. Cinque licenziamenti diventano un'unica indagine, non cinque.
  • Se il thread precedente è stato risolto o chiuso all'interno della finestra di raffreddamento, l'agente lo riapre invece di creare un nuovo thread.

Quando il raffreddamento è disabilitato:

  • Ogni attivazione dell'avviso genera un nuovo thread di indagine, anche dalla stessa regola.
  • Usare questa impostazione per gli avvisi critici in cui ogni incendio richiede un'indagine aggiornata e indipendente.

Avviso

La disabilitazione del raffreddamento indica che ogni attivazione di una regola di avviso rumorosa attiva una nuova indagine. Per le regole che si attivano frequentemente, come gli avvisi per le soglie di CPU o memoria, questo approccio può incrementare notevolmente l'utilizzo di token.

Cosa rende questo approccio diverso

Quando si seleziona Autonoma, accanto all'opzione viene visualizzata un'icona di informazioni (️ℹ). Selezionarlo per esaminare il riconoscimento della modalità autonoma : una finestra di dialogo che illustra il significato dell'operazione autonoma, inclusi i limiti dell'agente, le limitazioni del modello di intelligenza artificiale, le responsabilità per la definizione dell'ambito dell'accesso e la revisione dei risultati e delle condizioni di responsabilità.

Suggerimento

Iniziare con la modalità di revisione per i nuovi piani di risposta per convalidare il comportamento di indagine dell'agente prima di concedere l'autonomia completa. È possibile passare a Autonomo dopo aver fiducia nella selezione degli strumenti dell'agente e nei modelli di indagine.

Cosa rende questo diverso

A differenza delle regole di avviso statiche, i piani di risposta instradano gli agenti specializzati. Ogni piano può puntare a un agente personalizzato diverso con strumenti e competenze diversi. Gli incidenti del database ricevono un esperto di database, e gli incidenti dell'API ricevono un investigatore esperto di deployment.

A differenza della selezione manuale dei runbook, l'agente prende automaticamente la decisione di instradamento. La giusta competenza corrisponde al problema giusto senza giudizio umano alle 3:00.

A differenza di un'automazione adatta a tutte le dimensioni, i piani di risposta consentono di ottimizzare la profondità dell'indagine per ogni tipo di evento imprevisto. Utilizzare la modalità autonoma per i guasti P1. Usare la modalità di revisione per gli avvisi con gravità inferiore. Abbina la tua risposta alla gravità del problema.

Prima e dopo

Prima Dopo
Routing degli incidenti L'uomo decide quale playbook seguire Agente associa un incidente ad un piano di risposta specializzato
Selezione degli strumenti Il tecnico apre manualmente i dashboard pertinenti Il giusto agente personalizzato con gli strumenti adeguati gestisce la situazione.
Profondità dell'indagine Stesso approccio per P1 e P4 Autonomo per i casi critici, revisione per i casi a bassa gravità
Sospensione di un piano Eliminare il piano, ricreare in un secondo momento Fare clic su Disattiva - configurazione mantenuta
Pianificare la visibilità Spostarsi tra più pagine Una griglia mostra i piani, gli stati e le mappature degli agenti personalizzati

Come creare un piano di risposta

È possibile creare e gestire piani di risposta in due posizioni:

Percorso Ideale per
Generatore → Piani di risposta agli incidenti Gestione di tutti i piani in una griglia con filtro, ricerca e attivazione/disabilitazione con un clic
Generatore → Canvas agente (canvas) Visualizzazione dell'instradamento dei trigger agli agenti personalizzati

In entrambi i percorsi selezionare Nuovo piano di risposta agli incidenti (o il pulsante + su un nodo agente personalizzato nel canvas) per aprire la procedura guidata di creazione.

:::warning Tenere presente il piano di avvio rapido predefinito Quando si connette per la prima volta una piattaforma di eventi imprevisti, il sistema crea automaticamente un piano di risposta di avvio rapido predefinito. Se si creano piani personalizzati, eliminare il piano di avvio rapido da Builder → piani di risposta agli eventi imprevisti. I piani sovrapposti possono causare l'indirizzamento degli incidenti all'agente errato o il loro processamento doppio.

Abilitare e disabilitare i piani

È possibile attivare o disattivare qualsiasi piano di risposta senza eliminarlo. Questa funzionalità è utile durante le finestre di manutenzione, i test o quando si vuole interrompere temporaneamente il routing di determinati tipi di eventi imprevisti.

  1. Passare a Generatore → piani di risposta agli eventi imprevisti
  2. Selezionare il piano facendo clic sulla relativa casella di controllo
  3. Selezionare Disattiva sulla barra degli strumenti che visualizza una finestra di dialogo di conferma
  4. Selezionare per disabilitare il piano

Lo stato del piano cambia in Off e lo scanner interrompe la corrispondenza degli incidenti in relazione ad esso. La configurazione del filtro viene mantenuta.

Per riattivare, selezionare il piano e selezionare Attiva. Questa azione viene eseguita immediatamente senza conferma.

È anche possibile attivare o disattivare i piani da Builder → Agent Canvas → tabella → scheda Piani di risposta agli eventi imprevisti , che fornisce gli stessi controlli nella griglia unificata.

Visualizzazione griglia unificata

La vista tabella nel canvas dell'agente mostra tutti i piani di risposta insieme agli agenti personalizzati, le attività pianificate e gli strumenti. Passare alla scheda Piani di risposta agli eventi imprevisti per visualizzare:

colonna Cosa mostra
Nome del piano di risposta Identificatore del piano
Stato Badge attivato (verde) o disattivato (rosso)
Nome agente personalizzato Quale agente personalizzato gestisce gli incidenti corrispondenti
Severity Livelli di gravità su cui viene filtrato il piano
Tipo di incidente Classificazione dei tipi
Servizio interessato Filtro del servizio
Titolo contiene Filtro in base a parole chiave

Usare il filtro Stato per trovare rapidamente i piani disabilitati e la casella di ricerca per trovare i piani in base al nome.

Esempio: Routing di database e eventi imprevisti dell'API

Il team esegue due servizi: api-gateway e postgres-primary. Gli eventi imprevisti dell'API in genere comportano rollback della distribuzione e richiedono il contesto del codice sorgente. Gli eventi imprevisti del database richiedono un'analisi approfondita dei log con query Kusto.

Si creano due piani di risposta:

Attivatore Filter Agente personalizzato Modalità
api-high-sev P1 + P2 su api-gateway DeploymentAnalyzer Review
db-critical P1 su postgres-primary DatabaseExpert Autonomo

Inizia subito

risorsa Cosa imparerai
Configurare un trigger di eventi imprevisti → Configurare i piani di risposta per automatizzare la gestione degli eventi imprevisti
Capability Elementi aggiunti
Risposta agli eventi imprevisti Funzionalità di automazione degli eventi imprevisti più ampia
Analisi della causa radice Indagine basata su ipotesi
Agenti personalizzati Creare agenti specializzati che interagiscono