Plataformas de incidentes no Agente SRE do Azure

Uma plataforma de incidentes é o sistema que informa ao seu agente quando algo dá errado. Ao conectar sua plataforma de incidentes, seu agente pode receber alertas, investigar problemas e agir automaticamente, sem esperar que alguém inicie um chat.

Sem uma plataforma de incidentes, seu agente é reativo: os usuários fazem perguntas e ele investiga sob demanda. Com uma conexão estabelecida, seu agente se torna proativo: ele detecta incidentes no momento em que ocorrem e começa a trabalhar imediatamente.

Plataformas com suporte

Plataforma O que ele fornece
Azure Monitor Nenhuma credencial é necessária. Ele pode se conectar no assistente, e os alertas de seus grupos de recursos gerenciados fluem automaticamente, com alertas recorrentes mesclados em um único tópico.
PagerDuty Alertas de incidentes e gerenciamento de chamada com integração baseada em API
ServiceNow Integração de gerenciamento de serviços de TI empresarial

Somente uma plataforma de incidentes pode estar ativa por vez. Mudar para uma plataforma diferente desconectará a atual.

O que a conexão de uma plataforma de incidentes permite

Depois de conectado, o agente obtém estes recursos:

Recepção automática de incidentes

Os incidentes fluem para o agente assim que são criados na sua plataforma. Ninguém precisa copiar alertas ou iniciar manualmente uma investigação. O agente captura incidentes automaticamente.

Cartões detalhados de incidentes

Incidentes recebidos de todas as plataformas com suporte, incluindo PagerDuty, ServiceNow e Azure Monitor são exibidos como cartões avançados na interface de chat. Cada card mostra:

Campo Detalhes
Selo de severidade Codificado por cor por prioridade (por exemplo, P1/Sev0 = vermelho, P2/Sev1 = laranja)
Timestamp Quando o incidente ocorreu
Título Título do incidente com o prefixo da plataforma
Status Status atual (por exemplo, Acionado, Reconhecido)
Descrição Resumo de incidentes
Plano de resposta Link para o plano de resposta que está tratando o incidente (se configurado)
Exibir Detalhes Link para o incidente em sua plataforma de origem

Os cartões detalhados substituem as notificações de incidente de texto sem formatação usadas anteriormente, facilitando a visualização dos detalhes do incidente rapidamente.

Interação de incidentes

Seu agente pode ler e gravar de volta no incidente. Essas ferramentas estão disponíveis automaticamente quando você conecta a plataforma correspondente sem necessidade de instalação adicional.

PlataformaRecursos de leituraCapacidades de escrita
Azure MonitorDetalhes do alerta, gravidade, recursos afetadosReconhecer alertas e fechar alertas
PagerDutyDetalhes do incidente, diagnósticoReconhecer, resolver, adicionar anotações
ServiceNowDetalhes do incidentePublique entradas de discussão, reconheça, resolva

Planos de resposta

Os planos de resposta definem o que o agente faz quando tipos específicos de incidentes chegam. Você configura regras com base na gravidade dos incidentes, modelos de título ou outros critérios, e o agente executa o plano automaticamente.

Saiba mais: Planos de resposta a incidentes

Um plano de resposta pode:

  • Executar etapas de investigação específicas
  • Usar conectores e ferramentas específicos
  • Operar em um nível de autonomia definido (de "coletar informações somente" para "tomar medidas corretivas")
  • Tente novamente a investigação automaticamente (até um limite configurável) antes de escalar para um humano

Os planos de resposta transformam seu agente de um assistente de uso geral em um respondente de incidentes com procedimentos definidos para tipos de incidentes conhecidos.

Plano de resposta de início rápido

Ao conectar uma plataforma de incidentes, você pode habilitar o plano de resposta do Início Rápido para criar automaticamente um plano de resposta padrão. Este plano faz com que você comece imediatamente:

Plataforma Identificadores de plano padrão Nível de autonomia
Azure Monitor Alertas sev0, Sev1, Sev2 Autônomo
PagerDuty Incidentes P1 Autônomo

O Azure Monitor dá suporte a todos os níveis de severidade (Sev0–Sev4). O plano de início rápido tem como destino os alertas de prioridade mais alta por padrão. Você pode personalizá-lo para incluir severidades adicionais ou criar planos separados para alertas de prioridade mais baixa.

O plano de início rápido cria um plano de resposta chamado quickstart_handler :

  • Corresponde a incidentes por prioridade ou gravidade
  • Abrange todos os serviços afetados
  • É executado no modo totalmente autônomo
  • Pode ser personalizado ou desabilitado posteriormente

Você pode personalizar esse plano padrão ou criar planos de resposta adicionais com diferentes filtros e níveis de autonomia.

Monitorar o valor do incidente

A seção Monitor → Métricas de Incidente mostra como seu agente gerencia incidentes ao longo do tempo.

Saiba mais: Controlar o valor do incidente

Métrica O que ele mostra
Incidentes revisados Total de incidentes que o agente processa
Mitigado por um agente Incidentes que o agente resolve de forma autônoma
Assistido por agente Incidentes em que o agente ajuda e o usuário conclui a resolução
Mitigado pelo usuário Incidentes que o usuário resolve com informações fornecidas pelo agente
Ação do usuário pendente Incidentes à espera de entrada humana

Use essas métricas para entender a eficácia do agente e identificar planos de resposta que podem precisar de ajuste.

Plataformas de gestão de incidentes vs. conectores

Esses conceitos funcionam juntos:

Plataformas de incidentes Conectores
Purpose De onde vêm os alertas Dados e ações que o agente pode USAR
Configurado em Construtor → Plataforma de Incidentes Construtor → Conectores
Direção Entrada (fluxo de incidentes PARA o agente) Saída (o agente inicia comunicação COM os sistemas)
Exemplo PagerDuty envia um alerta → agente investiga Agente consulta Kusto → localiza causa raiz

Seu agente utiliza ambos os conceitos: a plataforma de incidentes aciona a investigação, e os conectores fornecem as ferramentas para investigar.

Recurso Por que isso importa
Tutorial: Configurar planos de resposta → Guia passo a passo para criar seu primeiro plano de resposta
Planos de resposta a incidentes Como os planos de resposta encaminham incidentes para agentes personalizados
Automatizar a resposta a incidentes Capacidades de automação de incidentes de ponta a ponta
Monitorar o valor do incidente Meça o impacto da resolução de incidentes pelo seu agente
Monitorar o uso do agente Acompanhar o uso, as informações de sessão e a atividade do agente
PagerDuty Configuração e funcionalidades específicas do PagerDuty
ServiceNow Configuração e funcionalidades específicas do ServiceNow
Alertas do Azure Monitor Alertas do Azure Monitor, integração de alertas recorrentes e mapeamento de severidade
Conectores → Como os conectores fornecem ferramentas para investigação