Criar um plano de resposta a incidentes no Agente SRE do Azure

Os planos de resposta a incidentes permitem rotear automaticamente incidentes de entrada para o agente personalizado correto com base em critérios de filtro, como gravidade, serviço e tipo de incidente. Em vez de realizar triagem manualmente de cada alerta, você define as condições uma única vez e seu agente lida com incidentes correspondentes assim que chegam.

Neste tutorial, você cria um plano de resposta a partir da Tela do Agente, visualiza os incidentes correspondentes e usa o botão para habilitar/desabilitar para controlar quando o plano está ativo.

Pré-requisitos

Um agente com uma plataforma de incidentes conectada (PagerDuty, ServiceNow ou Azure Monitor)
Pelo menos um agente personalizado configurado
Função de Colaborador ou Proprietário no recurso do agente

Etapa 1: Abrir a Tela do Agente

No portal do Agente SRE, selecione seu agente. Na barra lateral esquerda, vá para o Builder → Agent Canvas.

Aviso

Quando você conecta uma plataforma de incidentes pela primeira vez, um plano de resposta de início rápido padrão pode ser criado automaticamente. Antes de criar planos personalizados, alterne para o modo de exibição Tabela e selecione a guia Planos de resposta a incidentes para verificar. Exclua o plano de início rápido se ele existir. Planos sobrepostos podem fazer com que incidentes sejam roteados incorretamente ou processados duas vezes.

Etapa 2: Criar um novo plano de resposta

Na Tela do Agente, selecione Criar na barra de ferramentas. Selecione Trigger>Plano de resposta a incidentes.

A caixa de diálogo de criação é aberta.

Preencha os critérios de filtro. Os campos que você vê dependem da plataforma de incidentes:

Nome do plano de resposta a incidentes: insira um nome descritivo, como high-sev-api-trigger.

Para o Azure Monitor:

Severidade: selecione um ou mais níveis de gravidade.
O título contém (opcional): adicione uma palavra-chave para restringir correspondências.

Para PagerDuty/ServiceNow:

Serviço afetado: selecione o serviço que este plano abrange ou selecione Todos.
Tipo de incidente: escolha a classificação de incidentes ou selecione Todos os tipos de incidentes.
Prioridade: selecione um ou mais níveis de prioridade, como P1 e P2.
O título contém (opcional): adicione uma palavra-chave para restringir correspondências.

Escolha a configuração de resposta:

Agente personalizado de resposta: selecione o agente personalizado que manipula incidentes correspondentes.
Nível de autonomia do agente: escolha como o agente responde:
- Autônomo (padrão): seu agente investiga e executa a mitigação de forma independente.
- Revisão: Seu agente propõe ações para sua aprovação antes de executar.

Observação

Quando você seleciona Autônomo (Padrão), um ℹícone ️ aparece ao lado da opção.

Selecione-o para examinar a confirmação do modo autônomo - um resumo do que significa execução autônoma, incluindo limites de agente, limitações de modelo de IA e suas responsabilidades. Ver planos de resposta –> Configuração do agente personalizado para obter detalhes.

Dica

Comece com o modo de revisão para novos planos se você quiser validar o comportamento de investigação do agente antes de conceder total autonomia. Novos planos são configurados por padrão para Autônomo.

Configurar o tempo de espera para reanálise de alertas (somente no Azure Monitor)

Se a sua plataforma de incidentes for Azure Monitor, uma seção de tempo de espera para reinvestigação aparece abaixo do nível de autonomia:

Ativar (caixa de seleção, padrão: ativado): quando ativado, os disparos recorrentes da mesma regra de alerta dentro do intervalo de espera são incorporados ao tópico de investigação existente, em vez de iniciar um novo. Os tópicos resolvidos são reabertos dentro da janela.
Tempo de espera (indicador giratório, padrão: 3 horas, intervalo: 1-24): quanto tempo deve decorrer após a resolução ou o encerramento de um tópico para que um novo incidente dê origem a uma nova investigação, em vez de reabrir o tópico existente.

Mantenha as configurações padrão para a maioria das regras de alerta. Desabilite o resfriamento apenas para alertas críticos em que cada incêndio precisa de investigação independente.

Aviso

Desabilitar o resfriamento pode aumentar significativamente o consumo de token para regras de alerta barulhentas. Uma regra que é acionada a cada 5 minutos criaria uma nova investigação a cada vez.

Preencha todos os campos necessários: nome do plano, serviço afetado, tipo de incidente e pelo menos um nível de prioridade. O botão Avançar fica habilitado.

Etapa 3: Pré-visualizar incidentes correspondentes

Selecione Próximo. A visualização de incidentes mostra uma tabela de incidentes passados que correspondem aos critérios de filtro.

A tabela exibe:

Prioridade, Data criada, Título, ID do Incidente e Status para cada incidente correspondente
Um filtro de intervalo de tempo (padrão: últimos 90 dias) para ajustar a janela de visualização

Revise os resultados:

Muitas correspondências? Volte e adicione uma restrição de severidade ou palavra-chave de título.
Não há correspondências? Esse resultado é normal para novos serviços. Seu plano ainda funciona para incidentes futuros.
Número certo? Seu filtro está bem ajustado.

Selecione Criar plano de resposta a incidentes para salvar o plano.

Verificação: o plano aparece na grade com o status Ativo (ícone verde).

Etapa 4: Desativar e ativar um plano

Selecione seu plano marcando a caixa de seleção correspondente na grade.

Selecione Desativar na barra de ferramentas. Uma caixa de diálogo de confirmação será exibida.
Selecione Sim para desabilitar o plano.

O selo de status é alterado para Desativado. O scanner para de comparar incidentes com este plano. Sua configuração de filtro é preservada.

Para reativar o plano, siga estas etapas:

Selecione o plano novamente.
Selecione Ativar. Ele entra em vigor imediatamente sem confirmação.

O selo de status retorna para Ativado.

Checkpoint: A alternância funciona – você pode alternar um plano entre Ativar e Desativar sem excluí-lo.

Etapa 5: Verificar na grade de planos de resposta

Você pode ver seu plano diretamente na grade da página planos de resposta a incidentes, com indicador de status, agente personalizado, filtro de severidade e colunas de nível de autonomia.

Verificação: seu plano aparece na grade com o status, o agente personalizado e a gravidade corretos.

Dica

Use o filtro Título contém para testar com segurança. Defina-o para corresponder a um título de incidente de teste específico (por exemplo) "[TEST] CPU spike"e criar um incidente de teste com esse título. Esse método valida o comportamento do agente sem afetar o roteamento de produção. Depois de verificado, ajuste ou remova o filtro de título.

Editar ou excluir um plano de resposta

Edit

Na grade de planos de resposta, selecione o link da ID do plano para abrir o plano.
A tela de edição é exibida com todas as configurações atuais já preenchidas.
Modifique os critérios de filtro, o agente personalizado ou o nível de autonomia.
Selecione Salvar para aplicar suas alterações.

Delete

Selecione o plano usando a caixa de seleção na tabela.
Selecione Excluir na barra de ferramentas.
Uma caixa de diálogo de confirmação será exibida. Clique em Sim para confirmar.

A exclusão de planos interrompe imediatamente os incidentes de roteamento. As investigações ativas que o plano iniciou continuam até serem concluídas.

O que você aprendeu

Como criar planos de resposta na página Planos de resposta a incidentes .
Como os critérios de filtro (severidade, serviço, tipo, título) encaminham incidentes para o agente personalizado correto.
Como visualizar os incidentes históricos correspondentes antes de confirmar.
Como usar a alternância habilitar/desabilitar para pausar e retomar o roteamento.
Como verificar planos na visualização unificada da grade no Agent Canvas.
A diferença entre os níveis de autonomia Autônomo e Revisão.

Recurso	O que aprendeu
Planos de resposta a incidentes	Entender a funcionalidade completa dos planos de resposta
Conectar uma fonte de dados	Conceder ao agente personalizado acesso aos dados de log
Investigação profunda	Análise de causa raiz complexa
Agentes personalizados	Agentes personalizados especializados para diferentes tipos de incidentes

Comentários

Esta página foi útil?

Last updated on 2026-04-30