Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Suggerimento
- Il giusto agente personalizzato gestisce automaticamente ogni tipo di incidente senza intervento umano alle 3 AM
- Filtrare in base alla gravità, al servizio, al titolo e al tipo in modo che corrisponda esattamente agli eventi imprevisti di cui si è preoccupati
- Attivare o disattivare qualsiasi piano con un'unica azione. È possibile sospendere il routing durante la manutenzione senza cancellarlo.
- Visualizzare tutti i piani, gli stati e i mapping degli agenti personalizzati in una griglia unificata
Il problema: un manuale per ogni incendio
Non tutti gli eventi imprevisti sono uguali. Un danneggiamento del database P1 richiede un'analisi approfondita dei log e un'azione immediata. Una riduzione delle prestazioni P3 richiede un rapido controllo delle metriche. Un rollback della distribuzione richiede il contesto del codice sorgente e la cronologia di distribuzione.
Tuttavia, la maggior parte dell'automazione tratta tutti gli eventi imprevisti in modo identico usando gli stessi passaggi di indagine, gli stessi strumenti e la stessa urgenza. Il tecnico su chiamata finisce per essere il router, decidendo quale runbook seguire, quali dashboard controllare e come rispondere urgentemente. Alle 3:00, il sovraccarico decisionale aumenta direttamente l'MTTR.
Funzionamento dei piani di risposta
I piani di risposta connettono i filtri degli eventi imprevisti agli agenti personalizzati. Quando arriva un evento imprevisto, l'agente lo valuta in base ai piani di risposta attivi e lo instrada automaticamente all'agente personalizzato corretto.
Ogni piano di risposta ha due parti:
| Parte | Che cosa controlla | Esempio |
|---|---|---|
| Filtro eventi imprevisti | Quali incidenti abbinare | Eventi imprevisti P1 e P2 sul servizio api-gateway |
| Gestore di agenti personalizzato | Come rispondere | Usare l'agente api-expert personalizzato in modalità di revisione |
Criteri di filtro
| Criteri | Cosa filtra | Esempio |
|---|---|---|
| Gravità/Priorità | Uno o più livelli di gravità | P1 + P2 (selezione multipla) |
| Servizio interessato | Quale servizio è interessato |
api-gateway, payment-service |
| Tipo di incidente | Classificazione | Predefinito, Maggiore, Sicurezza |
| Titolo contiene | Corrispondenza della parola chiave nel titolo dell'evento imprevisto |
"CPU spike", "Out of memory" |
Selezionare più livelli di gravità in un singolo piano. Il tuo agente associa gli incidenti a uno qualsiasi dei livelli selezionati.
Configurazione dell'agente personalizzato
Ogni piano specifica la modalità di risposta dell'agente:
| Impostazione | Options | Impostazione predefinita |
|---|---|---|
| Agente personalizzato di risposta | Qualsiasi agente personalizzato configurato | Preselizionato durante la creazione da un grafico |
| Livello di autonomia dell'agente | Autonomo, Revisione | Autonomo |
- Autonomo: l'agente analizza gli eventi imprevisti ed esegue in modo indipendente le modifiche alle risorse o alla mitigazione con le autorizzazioni necessarie.
- Verifica : l'agente diagnostica gli eventi imprevisti, quindi attenua o modifica le risorse solo dopo la revisione e l'approvazione delle azioni proposte.
Tempo di raffreddamento per la ripetizione dell'indagine sugli avvisi (solo Monitoraggio di Azure)
Per i piani di risposta di Monitoraggio di Azure, controllare come l'agente gestisce le attivazioni ricorrenti della stessa regola di avviso. Per impostazione predefinita, quando la stessa regola di avviso viene nuovamente attivata all'interno della finestra di raffreddamento, il nuovo avviso viene unito al thread di indagine esistente anziché avviarne uno nuovo. Questo approccio consente di risparmiare l'utilizzo dei token e di mantenere pulito l'elenco degli eventi imprevisti.
| Impostazione | Options | Impostazione predefinita |
|---|---|---|
| Tempo di raffreddamento per la ripetizione dell'indagine | Abilita/Disabilita | Enabled |
| Tempo di raffreddamento | 1-24 ore | 3 ore |
Quando il cooldown è abilitato (impostazione predefinita):
- Avvisi ricorrenti della stessa regola si uniscono al thread esistente. Cinque licenziamenti diventano un'unica indagine, non cinque.
- Se il thread precedente è stato risolto o chiuso all'interno della finestra di raffreddamento, l'agente lo riapre invece di creare un nuovo thread.
Quando il raffreddamento è disabilitato:
- Ogni attivazione dell'avviso genera un nuovo thread di indagine, anche dalla stessa regola.
- Usare questa impostazione per gli avvisi critici in cui ogni incendio richiede un'indagine aggiornata e indipendente.
Avviso
La disabilitazione del raffreddamento indica che ogni attivazione di una regola di avviso rumorosa attiva una nuova indagine. Per le regole che si attivano frequentemente, come gli avvisi per le soglie di CPU o memoria, questo approccio può incrementare notevolmente l'utilizzo di token.
Cosa rende questo approccio diverso
Quando si seleziona Autonoma, accanto all'opzione viene visualizzata un'icona di informazioni (️ℹ). Selezionarlo per esaminare il riconoscimento della modalità autonoma : una finestra di dialogo che illustra il significato dell'operazione autonoma, inclusi i limiti dell'agente, le limitazioni del modello di intelligenza artificiale, le responsabilità per la definizione dell'ambito dell'accesso e la revisione dei risultati e delle condizioni di responsabilità.
Suggerimento
Iniziare con la modalità di revisione per i nuovi piani di risposta per convalidare il comportamento di indagine dell'agente prima di concedere l'autonomia completa. È possibile passare a Autonomo dopo aver fiducia nella selezione degli strumenti dell'agente e nei modelli di indagine.
Cosa rende questo diverso
A differenza delle regole di avviso statiche, i piani di risposta instradano gli agenti specializzati. Ogni piano può puntare a un agente personalizzato diverso con strumenti e competenze diversi. Gli incidenti del database ricevono un esperto di database, e gli incidenti dell'API ricevono un investigatore esperto di deployment.
A differenza della selezione manuale dei runbook, l'agente prende automaticamente la decisione di instradamento. La giusta competenza corrisponde al problema giusto senza giudizio umano alle 3:00.
A differenza di un'automazione adatta a tutte le dimensioni, i piani di risposta consentono di ottimizzare la profondità dell'indagine per ogni tipo di evento imprevisto. Utilizzare la modalità autonoma per i guasti P1. Usare la modalità di revisione per gli avvisi con gravità inferiore. Abbina la tua risposta alla gravità del problema.
Prima e dopo
| Prima | Dopo | |
|---|---|---|
| Routing degli incidenti | L'uomo decide quale playbook seguire | Agente associa un incidente ad un piano di risposta specializzato |
| Selezione degli strumenti | Il tecnico apre manualmente i dashboard pertinenti | Il giusto agente personalizzato con gli strumenti adeguati gestisce la situazione. |
| Profondità dell'indagine | Stesso approccio per P1 e P4 | Autonomo per i casi critici, revisione per i casi a bassa gravità |
| Sospensione di un piano | Eliminare il piano, ricreare in un secondo momento | Fare clic su Disattiva - configurazione mantenuta |
| Pianificare la visibilità | Spostarsi tra più pagine | Una griglia mostra i piani, gli stati e le mappature degli agenti personalizzati |
Come creare un piano di risposta
È possibile creare e gestire piani di risposta in due posizioni:
| Percorso | Ideale per |
|---|---|
| Generatore → Piani di risposta agli incidenti | Gestione di tutti i piani in una griglia con filtro, ricerca e attivazione/disabilitazione con un clic |
| Generatore → Canvas agente (canvas) | Visualizzazione dell'instradamento dei trigger agli agenti personalizzati |
In entrambi i percorsi selezionare Nuovo piano di risposta agli incidenti (o il pulsante + su un nodo agente personalizzato nel canvas) per aprire la procedura guidata di creazione.
:::warning Tenere presente il piano di avvio rapido predefinito Quando si connette per la prima volta una piattaforma di eventi imprevisti, il sistema crea automaticamente un piano di risposta di avvio rapido predefinito. Se si creano piani personalizzati, eliminare il piano di avvio rapido da Builder → piani di risposta agli eventi imprevisti. I piani sovrapposti possono causare l'indirizzamento degli incidenti all'agente errato o il loro processamento doppio.
Abilitare e disabilitare i piani
È possibile attivare o disattivare qualsiasi piano di risposta senza eliminarlo. Questa funzionalità è utile durante le finestre di manutenzione, i test o quando si vuole interrompere temporaneamente il routing di determinati tipi di eventi imprevisti.
- Passare a Generatore → piani di risposta agli eventi imprevisti
- Selezionare il piano facendo clic sulla relativa casella di controllo
- Selezionare Disattiva sulla barra degli strumenti che visualizza una finestra di dialogo di conferma
- Selezionare Sì per disabilitare il piano
Lo stato del piano cambia in Off e lo scanner interrompe la corrispondenza degli incidenti in relazione ad esso. La configurazione del filtro viene mantenuta.
Per riattivare, selezionare il piano e selezionare Attiva. Questa azione viene eseguita immediatamente senza conferma.
È anche possibile attivare o disattivare i piani da Builder → Agent Canvas → tabella → scheda Piani di risposta agli eventi imprevisti , che fornisce gli stessi controlli nella griglia unificata.
Visualizzazione griglia unificata
La vista tabella nel canvas dell'agente mostra tutti i piani di risposta insieme agli agenti personalizzati, le attività pianificate e gli strumenti. Passare alla scheda Piani di risposta agli eventi imprevisti per visualizzare:
| colonna | Cosa mostra |
|---|---|
| Nome del piano di risposta | Identificatore del piano |
| Stato | Badge attivato (verde) o disattivato (rosso) |
| Nome agente personalizzato | Quale agente personalizzato gestisce gli incidenti corrispondenti |
| Severity | Livelli di gravità su cui viene filtrato il piano |
| Tipo di incidente | Classificazione dei tipi |
| Servizio interessato | Filtro del servizio |
| Titolo contiene | Filtro in base a parole chiave |
Usare il filtro Stato per trovare rapidamente i piani disabilitati e la casella di ricerca per trovare i piani in base al nome.
Esempio: Routing di database e eventi imprevisti dell'API
Il team esegue due servizi: api-gateway e postgres-primary. Gli eventi imprevisti dell'API in genere comportano rollback della distribuzione e richiedono il contesto del codice sorgente. Gli eventi imprevisti del database richiedono un'analisi approfondita dei log con query Kusto.
Si creano due piani di risposta:
| Attivatore | Filter | Agente personalizzato | Modalità |
|---|---|---|---|
api-high-sev |
P1 + P2 su api-gateway |
DeploymentAnalyzer |
Review |
db-critical |
P1 su postgres-primary |
DatabaseExpert |
Autonomo |
Inizia subito
| risorsa | Cosa imparerai |
|---|---|
| Configurare un trigger di eventi imprevisti → | Configurare i piani di risposta per automatizzare la gestione degli eventi imprevisti |
Funzionalità correlate
| Capability | Elementi aggiunti |
|---|---|
| Risposta agli eventi imprevisti | Funzionalità di automazione degli eventi imprevisti più ampia |
| Analisi della causa radice | Indagine basata su ipotesi |
| Agenti personalizzati | Creare agenti specializzati che interagiscono |