Plataformas de incidentes en el agente de SRE de Azure

Una plataforma de incidentes es el sistema que indica al agente cuando algo va mal. Al conectar la plataforma de incidentes, el agente puede recibir alertas, investigar problemas y tomar medidas automáticamente, sin esperar a que alguien inicie un chat.

Sin una plataforma de incidentes, el agente es reactivo: los usuarios hacen preguntas e investigan a petición. Con uno conectado, el agente se vuelve proactivo: detecta incidentes en el momento en que se activan y comienza a trabajar inmediatamente.

Plataformas compatibles

Plataforma Qué proporciona
Azure Monitor No se necesitan credenciales. Puede conectarse en el asistente, y las alertas de sus grupos de recursos administrados fluyen automáticamente, combinando alertas periódicas en un solo hilo.
PagerDuty Alertas de incidentes y administración de llamadas con integración basada en API
ServiceNow Integración de la administración de servicios de TI empresarial

Solo una plataforma de incidentes puede estar activa a la vez. Al cambiar a otra plataforma, se desconecta la actual.

¿Qué habilita la conexión de una plataforma de incidentes?

Una vez conectado, el agente obtiene estas funcionalidades:

Recepción automática de incidentes

Los incidentes son enviados a tu agente en el momento en que se crean en tu plataforma. Nadie necesita copiar y pegar alertas ni iniciar manualmente una investigación. El agente recoge los incidentes automáticamente.

Tarjetas de incidente detalladas

Los incidentes que se reciben de todas las plataformas compatibles como PagerDuty, ServiceNow y Azure Monitor, se muestran como como tarjetas enriquecidas en la interfaz del chat. Cada tarjeta muestra:

Campo Detalles
Distintivo de gravedad Codificado por prioridad (por ejemplo, P1/Sev0 = rojo, P2/Sev1 = naranja)
Timestamp Cuándo se desencadenó el incidente
Título Título del incidente con prefijo de plataforma
Estado Estado actual (por ejemplo, Desencadenado, Confirmado)
Descripción Resumen de incidentes
Plan de respuesta Vínculo al plan de respuesta que controla el incidente (si está configurado)
Ver detalles Vínculo al incidente en su plataforma de origen

Las tarjetas enriquecidas reemplazan las notificaciones de incidentes de texto sin formato usadas anteriormente, lo que facilita analizar los detalles del incidente de un vistazo.

Interacción de incidentes

El agente puede leer y registrar cambios en el incidente. Estas herramientas están disponibles automáticamente cuando se conecta la plataforma correspondiente sin necesidad de configuración adicional.

PlataformaFuncionalidades de lecturaFuncionalidades de escritura
Azure MonitorDetalles de la alerta, gravedad, recursos afectadosConfirmación de alertas, cierre de alertas
PagerDutyDetalles del incidente, diagnósticosConfirmar, resolver, agregar notas
ServiceNowDetalles del incidentePublicar entradas de discusión, reconocer, resolver

Planes de respuesta

Los planes de respuesta definen lo que hace el agente cuando llegan tipos específicos de incidentes. Configuras reglas según la gravedad del incidente, los patrones en el título u otros criterios, y el agente sigue el plan de manera automática.

Más información: Planes de respuesta a incidentes

Un plan de respuesta puede:

  • Ejecución de pasos de investigación específicos
  • Uso de conectores y herramientas concretos
  • Operar en un nivel de autonomía definido (de "recopilar información solo" para "tomar medidas correctivas")
  • Vuelve a intentar la investigación automáticamente (hasta un límite configurable) antes de escalar a una persona

Los planes de respuesta convierten al agente de un asistente de uso general en un respondedor de incidentes con procedimientos definidos para los tipos de incidentes conocidos.

Plan de respuesta de inicio rápido

Al conectar una plataforma de incidentes, puede habilitar el plan de respuesta de inicio rápido para crear automáticamente un plan de respuesta predeterminado. Este plan le ayudará a empezar inmediatamente:

Plataforma Identificadores de plan predeterminados Nivel de autonomía
Azure Monitor Alertas de Sev0, Sev1, Sev2 Autónomo
PagerDuty Incidentes P1 Autónomo

Azure Monitor admite todos los niveles de gravedad (Sev0-Sev4). El plan de inicio rápido tiene como destino las alertas de prioridad más alta de forma predeterminada. Puede personalizarlo para incluir gravedades adicionales o crear planes independientes para alertas de prioridad inferior.

El plan de inicio rápido crea un plan de respuesta denominado quickstart_handler que:

  • Clasifica incidentes por prioridad o gravedad
  • Cubre todos los servicios afectados
  • Se ejecuta en modo totalmente autónomo
  • Se puede personalizar o deshabilitar más adelante

Puede personalizar este plan predeterminado o crear planes de respuesta adicionales con diferentes filtros y niveles de autonomía.

Seguimiento del valor del incidente

En la sección Supervisión → métricas de incidentes se muestra cómo el agente controla los incidentes a lo largo del tiempo.

Más información: Seguimiento del valor de incidente

Métrica Lo que muestra
Incidentes revisados Total de incidentes que procesa el agente
Mitigado por el agente Incidentes que resuelve el agente de forma autónoma
Asistencia del agente Incidentes en los que el agente ayuda y el usuario completa la resolución
Mitigado por el usuario Incidentes que el usuario resuelve con información proporcionada por el agente
Acción pendiente del usuario Incidentes que esperan la entrada humana

Use estas métricas para comprender la eficacia del agente e identificar los planes de respuesta que podrían necesitar la optimización.

Plataformas de incidentes frente a conectores

Estos conceptos funcionan juntos:

Plataformas para la gestión de incidentes Conectores
propósito Dónde proceden las alertas El agente de acciones y datos puede usar
Configurado en Builder → Plataforma de Incidentes Builder → Conectores
Direction Entrante (flujo de incidentes hacia el agente) Saliente (el agente contacta con los sistemas)
Ejemplo PagerDuty envía una alerta → agente investiga Consultas del agente en Kusto → encuentra la causa raíz

El agente usa ambos conceptos: la plataforma de incidentes desencadena la investigación y los conectores proporcionan las herramientas para investigar.

Recurso ¿Por qué es importante?
Tutorial: Configuración de planes de respuesta → Guía paso a paso para crear el primer plan de respuesta
Planes de respuesta a incidentes Cómo los planes de respuesta asignan incidentes a agentes específicos
Automatización de la respuesta a incidentes Funcionalidades de automatización de incidentes de un extremo a otro
Seguimiento del valor del incidente Mide el impacto de resolución de incidentes de tu agente
Supervisar el uso de agentes Seguimiento del uso, la información de sesión y la actividad del agente
PagerDuty Configuración y funcionalidades específicas de PagerDuty
ServiceNow Configuración y funcionalidades específicas de ServiceNow
Alertas de Azure Monitor Alertas de Azure Monitor, fusión periódica de alertas y mapeo de niveles de gravedad
Conectores → Cómo proporcionan los conectores herramientas para la investigación