Piani di risposta agli eventi imprevisti nell'agente SRE di Azure

Suggerimento

Il giusto agente personalizzato gestisce automaticamente ogni tipo di incidente senza intervento umano alle 3 AM
Filtrare in base alla gravità, al servizio, al titolo e al tipo in modo che corrisponda esattamente agli eventi imprevisti di cui si è preoccupati
Attivare o disattivare qualsiasi piano con un'unica azione. È possibile sospendere il routing durante la manutenzione senza cancellarlo.
Visualizzare tutti i piani, gli stati e i mapping degli agenti personalizzati in una griglia unificata

Il problema: un manuale per ogni incendio

Non tutti gli eventi imprevisti sono uguali. Un danneggiamento del database P1 richiede un'analisi approfondita dei log e un'azione immediata. Una riduzione delle prestazioni P3 richiede un rapido controllo delle metriche. Un rollback della distribuzione richiede il contesto del codice sorgente e la cronologia di distribuzione.

Tuttavia, la maggior parte dell'automazione tratta tutti gli eventi imprevisti in modo identico usando gli stessi passaggi di indagine, gli stessi strumenti e la stessa urgenza. Il tecnico su chiamata finisce per essere il router, decidendo quale runbook seguire, quali dashboard controllare e come rispondere urgentemente. Alle 3:00, il sovraccarico decisionale aumenta direttamente l'MTTR.

Funzionamento dei piani di risposta

I piani di risposta connettono i filtri degli eventi imprevisti agli agenti personalizzati. Quando arriva un evento imprevisto, l'agente lo valuta in base ai piani di risposta attivi e lo instrada automaticamente all'agente personalizzato corretto.

Ogni piano di risposta ha due parti:

Parte	Che cosa controlla	Esempio
Filtro eventi imprevisti	Quali incidenti abbinare	Eventi imprevisti P1 e P2 sul servizio `api-gateway`
Gestore di agenti personalizzato	Come rispondere	Usare l'agente `api-expert` personalizzato in modalità di revisione

Criteri di filtro

Criteri	Cosa filtra	Esempio
Gravità/Priorità	Uno o più livelli di gravità	P1 + P2 (selezione multipla)
Servizio interessato	Quale servizio è interessato	`api-gateway`, `payment-service`
Tipo di incidente	Classificazione	Predefinito, Maggiore, Sicurezza
Titolo contiene	Corrispondenza della parola chiave nel titolo dell'evento imprevisto	`"CPU spike"`, `"Out of memory"`

Selezionare più livelli di gravità in un singolo piano. Il tuo agente associa gli incidenti a uno qualsiasi dei livelli selezionati.

Configurazione dell'agente personalizzato

Ogni piano specifica la modalità di risposta dell'agente:

Impostazione	Options	Impostazione predefinita
Agente personalizzato di risposta	Qualsiasi agente personalizzato configurato	Preselizionato durante la creazione da un grafico
Livello di autonomia dell'agente	Autonomo, Revisione	Autonomo

Autonomo: l'agente analizza gli eventi imprevisti ed esegue in modo indipendente le modifiche alle risorse o alla mitigazione con le autorizzazioni necessarie.
Verifica : l'agente diagnostica gli eventi imprevisti, quindi attenua o modifica le risorse solo dopo la revisione e l'approvazione delle azioni proposte.

Tempo di raffreddamento per la ripetizione dell'indagine sugli avvisi (solo Monitoraggio di Azure)

Per i piani di risposta di Monitoraggio di Azure, controllare come l'agente gestisce le attivazioni ricorrenti della stessa regola di avviso. Per impostazione predefinita, quando la stessa regola di avviso viene nuovamente attivata all'interno della finestra di raffreddamento, il nuovo avviso viene unito al thread di indagine esistente anziché avviarne uno nuovo. Questo approccio consente di risparmiare l'utilizzo dei token e di mantenere pulito l'elenco degli eventi imprevisti.

Impostazione	Options	Impostazione predefinita
Tempo di raffreddamento per la ripetizione dell'indagine	Abilita/Disabilita	Enabled
Tempo di raffreddamento	1-24 ore	3 ore

Quando il cooldown è abilitato (impostazione predefinita):

Avvisi ricorrenti della stessa regola si uniscono al thread esistente. Cinque licenziamenti diventano un'unica indagine, non cinque.
Se il thread precedente è stato risolto o chiuso all'interno della finestra di raffreddamento, l'agente lo riapre invece di creare un nuovo thread.

Quando il raffreddamento è disabilitato:

Ogni attivazione dell'avviso genera un nuovo thread di indagine, anche dalla stessa regola.
Usare questa impostazione per gli avvisi critici in cui ogni incendio richiede un'indagine aggiornata e indipendente.

Avviso

La disabilitazione del raffreddamento indica che ogni attivazione di una regola di avviso rumorosa attiva una nuova indagine. Per le regole che si attivano frequentemente, come gli avvisi per le soglie di CPU o memoria, questo approccio può incrementare notevolmente l'utilizzo di token.

Cosa rende questo approccio diverso

Quando si seleziona Autonoma, accanto all'opzione viene visualizzata un'icona di informazioni (️ℹ). Selezionarlo per esaminare il riconoscimento della modalità autonoma : una finestra di dialogo che illustra il significato dell'operazione autonoma, inclusi i limiti dell'agente, le limitazioni del modello di intelligenza artificiale, le responsabilità per la definizione dell'ambito dell'accesso e la revisione dei risultati e delle condizioni di responsabilità.

Suggerimento

Iniziare con la modalità di revisione per i nuovi piani di risposta per convalidare il comportamento di indagine dell'agente prima di concedere l'autonomia completa. È possibile passare a Autonomo dopo aver fiducia nella selezione degli strumenti dell'agente e nei modelli di indagine.

Cosa rende questo diverso

A differenza delle regole di avviso statiche, i piani di risposta instradano gli agenti specializzati. Ogni piano può puntare a un agente personalizzato diverso con strumenti e competenze diversi. Gli incidenti del database ricevono un esperto di database, e gli incidenti dell'API ricevono un investigatore esperto di deployment.

A differenza della selezione manuale dei runbook, l'agente prende automaticamente la decisione di instradamento. La giusta competenza corrisponde al problema giusto senza giudizio umano alle 3:00.

A differenza di un'automazione adatta a tutte le dimensioni, i piani di risposta consentono di ottimizzare la profondità dell'indagine per ogni tipo di evento imprevisto. Utilizzare la modalità autonoma per i guasti P1. Usare la modalità di revisione per gli avvisi con gravità inferiore. Abbina la tua risposta alla gravità del problema.

Prima e dopo

	Prima	Dopo
Routing degli incidenti	L'uomo decide quale playbook seguire	Agente associa un incidente ad un piano di risposta specializzato
Selezione degli strumenti	Il tecnico apre manualmente i dashboard pertinenti	Il giusto agente personalizzato con gli strumenti adeguati gestisce la situazione.
Profondità dell'indagine	Stesso approccio per P1 e P4	Autonomo per i casi critici, revisione per i casi a bassa gravità
Sospensione di un piano	Eliminare il piano, ricreare in un secondo momento	Fare clic su Disattiva - configurazione mantenuta
Pianificare la visibilità	Spostarsi tra più pagine	Una griglia mostra i piani, gli stati e le mappature degli agenti personalizzati

Come creare un piano di risposta

È possibile creare e gestire piani di risposta in due posizioni:

Percorso	Ideale per
Generatore → Piani di risposta agli incidenti	Gestione di tutti i piani in una griglia con filtro, ricerca e attivazione/disabilitazione con un clic
Generatore → Canvas agente (canvas)	Visualizzazione dell'instradamento dei trigger agli agenti personalizzati

In entrambi i percorsi selezionare Nuovo piano di risposta agli incidenti (o il pulsante + su un nodo agente personalizzato nel canvas) per aprire la procedura guidata di creazione.

:::warning Tenere presente il piano di avvio rapido predefinito Quando si connette per la prima volta una piattaforma di eventi imprevisti, il sistema crea automaticamente un piano di risposta di avvio rapido predefinito. Se si creano piani personalizzati, eliminare il piano di avvio rapido da Builder → piani di risposta agli eventi imprevisti. I piani sovrapposti possono causare l'indirizzamento degli incidenti all'agente errato o il loro processamento doppio.

Abilitare e disabilitare i piani

È possibile attivare o disattivare qualsiasi piano di risposta senza eliminarlo. Questa funzionalità è utile durante le finestre di manutenzione, i test o quando si vuole interrompere temporaneamente il routing di determinati tipi di eventi imprevisti.

Passare a Generatore → piani di risposta agli eventi imprevisti
Selezionare il piano facendo clic sulla relativa casella di controllo
Selezionare Disattiva sulla barra degli strumenti che visualizza una finestra di dialogo di conferma
Selezionare Sì per disabilitare il piano

Lo stato del piano cambia in Off e lo scanner interrompe la corrispondenza degli incidenti in relazione ad esso. La configurazione del filtro viene mantenuta.

Per riattivare, selezionare il piano e selezionare Attiva. Questa azione viene eseguita immediatamente senza conferma.

È anche possibile attivare o disattivare i piani da Builder → Agent Canvas → tabella → scheda Piani di risposta agli eventi imprevisti , che fornisce gli stessi controlli nella griglia unificata.

Visualizzazione griglia unificata

La vista tabella nel canvas dell'agente mostra tutti i piani di risposta insieme agli agenti personalizzati, le attività pianificate e gli strumenti. Passare alla scheda Piani di risposta agli eventi imprevisti per visualizzare:

colonna	Cosa mostra
Nome del piano di risposta	Identificatore del piano
Stato	Badge attivato (verde) o disattivato (rosso)
Nome agente personalizzato	Quale agente personalizzato gestisce gli incidenti corrispondenti
Severity	Livelli di gravità su cui viene filtrato il piano
Tipo di incidente	Classificazione dei tipi
Servizio interessato	Filtro del servizio
Titolo contiene	Filtro in base a parole chiave

Usare il filtro Stato per trovare rapidamente i piani disabilitati e la casella di ricerca per trovare i piani in base al nome.

Esempio: Routing di database e eventi imprevisti dell'API

Il team esegue due servizi: api-gateway e postgres-primary. Gli eventi imprevisti dell'API in genere comportano rollback della distribuzione e richiedono il contesto del codice sorgente. Gli eventi imprevisti del database richiedono un'analisi approfondita dei log con query Kusto.

Si creano due piani di risposta:

Attivatore	Filter	Agente personalizzato	Modalità
`api-high-sev`	P1 + P2 su `api-gateway`	`DeploymentAnalyzer`	Review
`db-critical`	P1 su `postgres-primary`	`DatabaseExpert`	Autonomo

Inizia subito

risorsa	Cosa imparerai
Configurare un trigger di eventi imprevisti →	Configurare i piani di risposta per automatizzare la gestione degli eventi imprevisti

Capability	Elementi aggiunti
Risposta agli eventi imprevisti	Funzionalità di automazione degli eventi imprevisti più ampia
Analisi della causa radice	Indagine basata su ipotesi
Agenti personalizzati	Creare agenti specializzati che interagiscono

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-25