Piattaforme di eventi imprevisti nell'agente SRE di Azure

Una piattaforma di eventi imprevisti è il sistema che indica all'agente quando si verifica un errore. Connettendo la piattaforma degli eventi imprevisti, l'agente può ricevere avvisi, analizzare i problemi e intervenire automaticamente, senza attendere che qualcuno avvii una chat.

Senza una piattaforma di eventi imprevisti, l'agente è reattivo: gli utenti pongono domande e analizzano su richiesta. Quando è connesso, l'agente diventa proattivo: rileva gli incidenti nel momento in cui si verificano e inizia a lavorare immediatamente.

Piattaforme supportate

Piattaforma Elementi forniti
Monitoraggio di Azure Nessuna credenziale necessaria. Può connettersi tramite la procedura guidata e gli avvisi dai gruppi di risorse gestiti fluiscono automaticamente, con avvisi ricorrenti uniti in un unico thread.
PagerDuty Avvisi sugli eventi imprevisti e gestione delle chiamate con l'integrazione basata su API
ServiceNow Integrazione della gestione dei servizi IT aziendali

Una sola piattaforma di eventi imprevisti può essere attiva alla volta. Il passaggio a una piattaforma diversa disconnette quello corrente.

Che cosa abilita la connessione di una piattaforma di gestione degli incidenti

Dopo la connessione, l'agente ottiene queste funzionalità:

Ricezione automatica degli eventi imprevisti

Gli incidenti vengono inoltrati all'agente appena vengono creati nella piattaforma. Nessuno deve copiare gli avvisi o avviare manualmente un'indagine. L'agente preleva automaticamente gli eventi imprevisti.

Schede avanzate degli eventi imprevisti

Gli eventi imprevisti in ingresso da tutte le piattaforme supportate, tra cui PagerDuty, ServiceNow e Monitoraggio di Azure, vengono visualizzati come schede rich nell'interfaccia della chat. Ogni scheda mostra:

Campo dettagli
Notifica di gravità Colore codificato per priorità (ad esempio, P1/Sev0 = rosso, P2/Sev1 = arancione)
Timestamp: Quando si è verificato l'evento imprevisto
Titolo Titolo dell'incidente con prefisso della piattaforma
Stato Stato corrente (ad esempio, attivato, riconosciuto)
Descrizione Riepilogo dell'incidente
Piano di risposta Collegamento al piano di risposta che gestisce l'evento imprevisto (se configurato)
Visualizza dettagli Collegamento all'incidente nella piattaforma di origine

Le schede dettagliate sostituiscono le notifiche testuali degli incidenti utilizzate in precedenza, semplificando la rapida analisi dei dettagli degli incidenti.

Interazione con gli eventi imprevisti

L'agente può leggere e scrivere sull'incidente. Questi strumenti sono disponibili automaticamente quando si connette la piattaforma corrispondente senza alcuna configurazione aggiuntiva necessaria.

PiattaformaFunzionalità di letturaFunzionalità di scrittura
Monitoraggio di AzureDettagli dell'avviso, gravità, risorse interessateConfermare gli avvisi, chiudere gli avvisi
PagerDutyDettagli dell'evento imprevisto, diagnosticaConfermare, risolvere, aggiungere note
ServiceNowDettagli incidentePubblicare messaggi di discussione, riconoscere, risolvere

Piani di risposta

I piani di risposta definiscono le operazioni dell'agente quando arrivano tipi specifici di eventi imprevisti. Configurare le regole in base alla gravità dell'evento imprevisto, alla struttura del titolo o ad altri criteri, e l'agente segue automaticamente il piano.

Altre informazioni: Piani di risposta agli eventi imprevisti

Un piano di risposta può:

  • Eseguire passaggi di indagine specifici
  • Usare connettori e strumenti specifici
  • Operare a livello di autonomia definito (da "solo raccogliere informazioni" a "intraprendere azioni correttive")
  • Ripetere l'indagine automaticamente (fino a un limite configurabile) prima di eseguire l'escalation a un essere umano

I piani di risposta trasformano l'agente da un assistente per utilizzo generico in un risponditore di eventi imprevisti con procedure definite per i tipi di eventi imprevisti noti.

Piano di risposta di avvio rapido

Quando si connette una piattaforma di eventi imprevisti, è possibile abilitare il piano di risposta Avvio rapido per creare automaticamente un piano di risposta predefinito. Questo piano ti consente di iniziare subito.

Piattaforma Gestione del piano predefinito Livello di autonomia
Monitoraggio di Azure Avvisi Sev0, Sev1, Sev2 Autonomo
PagerDuty Incidenti P1 Autonomo

Monitoraggio di Azure supporta tutti i livelli di gravità (Sev0–Sev4). Il piano di avvio rapido è destinato agli avvisi con priorità più alta per impostazione predefinita. È possibile personalizzarla in modo da includere gravità aggiuntive o creare piani separati per gli avvisi con priorità inferiore.

Il piano di avvio rapido crea un piano di risposta denominato quickstart_handler :

  • Corrisponde agli eventi imprevisti in base alla priorità o alla gravità
  • Vengono illustrati tutti i servizi interessati
  • Viene eseguito in modalità completamente autonoma
  • Può essere personalizzato o disabilitato in un secondo momento

È possibile personalizzare questo piano predefinito o creare piani di risposta aggiuntivi con filtri e livelli di autonomia diversi.

Tenere traccia del valore dell'evento imprevisto

La sezione Monitorare → metriche degli eventi imprevisti mostra come l'agente gestisce gli eventi imprevisti nel tempo.

Altre informazioni: Tenere traccia del valore dell'incidente

Metrica Cosa mostra
Eventi imprevisti esaminati Totali incidenti gestiti dall'agente
Mitigato dall'agente Eventi imprevisti risolti dall'agente in modo autonomo
Assistito dall'agente Eventi imprevisti in cui l'agente aiuta e l'utente completa la risoluzione
Mitigato dall'utente Eventi imprevisti risolti dall'utente con informazioni fornite dall'agente
Azione utente in sospeso Eventi imprevisti in attesa dell'input umano

Usare queste metriche per comprendere l'efficacia dell'agente e identificare i piani di risposta che potrebbero richiedere l'ottimizzazione.

Piattaforme di gestione degli incidenti e connettori

Questi concetti interagiscono tra loro:

Piattaforme di gestione degli incidenti Connettori
Purpose Da dove provengono gli avvisi L'agente per i dati e le azioni può utilizzare
Configurato in Costruttore → Piattaforma per la gestione degli incidenti Costruttore → Connettori
Direzione In ingresso (flusso di incidenti verso l'agente) In uscita (l'agente si connette ai sistemi)
Esempio PagerDuty invia un avviso →'agente analizza L'agente interroga Kusto → trova la causa principale

L'agente usa entrambi i concetti: la piattaforma degli eventi imprevisti attiva l'indagine e i connettori forniscono gli strumenti per indagare.

risorsa Perché è importante
Esercitazione: Configurare i piani di risposta → Guida dettagliata per creare il primo piano di risposta
Piani di risposta agli eventi imprevisti In che modo i piani di risposta instradano gli eventi imprevisti agli agenti personalizzati
Automatizzare la risposta agli eventi imprevisti Funzionalità di automazione degli incidenti end-to-end
Tenere traccia del valore dell'evento imprevisto Misura l'impatto della risoluzione degli incidenti degli agenti
Monitorare l'utilizzo dell'agente Tenere traccia dell'utilizzo, delle informazioni dettagliate della sessione e dell'attività dell'agente
PagerDuty Configurazione e funzionalità specifiche di PagerDuty
ServiceNow Configurazione e funzionalità specifiche di ServiceNow
Avvisi di Monitoraggio di Azure Monitoraggio degli avvisi di Azure, unione degli avvisi ricorrenti e mappatura della gravità
Connettori → Come i connettori forniscono strumenti per l'analisi