Preços e cobrança para o Agente SRE do Azure

Saiba como funciona a cobrança do Agente SRE do Azure e o que esperar em sua fatura do Azure.

Dois componentes de cobrança são fluxo sempre ligado (fixo) e fluxo ativo (variável, baseado em tokens). O fluxo ativo mede os tokens de grande modelo de linguagem grande (LLM) que seu agente consome. Cada tipo de token é medido com uma taxa fixa de Unidade de Agente do Azure (AAU), baseada no modelo configurado do seu agente.

Você pode monitorar o consumo no portal em Configurações>Consumo do Agente.

Como funciona a cobrança

Os encargos do Agente SRE do Azure são baseados em AAUs, uma medida padronizada de processamento de agente que é usada em todos os agentes predefinidos do Azure. Sua fatura mensal combina dois tipos de encargos: fluxo contínuo e fluxo dinâmico.

Fluxo sempre ativo (custo fixo)

Quando você cria um agente, ele é cobrado a uma taxa fixa pelo tempo que existir.

Componente Rate
Fluxo Always On Quatro AAUs por hora de trabalho do agente

O fluxo sempre ativo não significa que o agente esteja ativamente processando tarefas. Ele representa o custo base de manter o seu agente provisionado e disponível. A cobrança contínua se mantém desde a criação do agente até que ele seja excluído.

Fluxo ativo (custo variável)

Sempre que está trabalhando, o agente consome AAUs de fluxo ativo. Exemplos de trabalho podem ser se um usuário faz uma pergunta interativamente, uma automação dispara uma tarefa ou uma operação assíncrona é executada em segundo plano. Sempre que o agente estiver processando ativamente conta como fluxo ativo, independentemente de como o trabalho foi iniciado.

Como os tokens se tornam AAUs

Sempre que realiza tarefas, o agente consome tokens de LLM. Cada tipo de token é medido separadamente à taxa mostrada na tabela a seguir.

Tipo de token O que é medido
Entrada Tokens enviados para o modelo (prompts, resultados da ferramenta e contexto).
Saída Tokens gerados pelo modelo (respostas e raciocínio).
Leitura de cache Tokens fornecidos do cache de prompts (contexto repetido).
Gravação em cache Tokens gravados no cache de prompts para reutilização futura.

AAUs totais de fluxo ativo para uma tarefa são iguais à soma de AAUs nos quatro tipos de token.

Taxas de AAU por modelo

A tabela a seguir mostra o número de AAUs consumidas por 1 milhão de tokens.

Modelo Entrada Saída Leitura de cache Gravação em cache
Claude Opus 4.6 100 AAUs 500 AAUs 10 AAUs 125 AAUs
GPT 5.3 Codex 35 AAUs 280 AAUs 3.5 AAUs
GPT 5.2 35 AAUs 280 AAUs 3.5 AAUs

As taxas são por 1 milhão de tokens. A partir de 15 de abril de 2026. Mais modelos e provedores podem ser adicionados no futuro. As taxas de AAU são definidas pelo Azure e podem ser atualizadas à medida que novos modelos são lançados.

Detalhes principais

  • Apenas o tempo de processamento conta: O tempo que o agente gasta aguardando sua resposta não é cobrado no fluxo ativo.
  • O contador de fluxo ativo é redefinido mensalmente: O contador de consumo para suas AAUs é redefinido no início de cada mês do calendário.
  • O provedor é definido no nível do agente: O provedor de modelos (Antropic, OpenAI e outros) está configurado nas configurações do agente. O modelo correspondente determina suas taxas de AAU.

Fluxo ativo por tipo de tarefa

O número de tokens consumidos, o que resulta nas AAUs cobradas, depende da complexidade da tarefa. Tarefas mais complexas exigem mais etapas de raciocínio LLM, chamadas de ferramentas e processamento de dados, o que significa um maior uso de tokens.

A tabela a seguir mostra como o consumo de token se traduz em AAUs em cenários comuns.

Scenario Tokens de entrada Tokens de saída Leitura de cache Gravação em cache Claude Opus 4.6 AAUs GPT 5.3 Codex AAUs Exemplo
Pergunta rápida ~20 mil ~2 mil ~15 mil ~5K ~3.8 ~1,6 "Mostre-me alertas recentes."
Investigação de incidentes ~200 mil ~15 mil ~150 mil ~50K ~35,5 ~13,7 Incidente automatizado do Azure Monitor.
Correção completa ~500 mil ~40 mil ~400 mil ~100 mil ~86,5 ~33.9 "Diagnostique e corrija a implantação com falha."

Como funciona a matemática

A tabela a seguir apresenta os cálculos do exemplo Claude Opus 4.6 anterior usando os números da linha de perguntas rápidas.

Tipo de token Tokens Taxa por 1M AAUs
Entrada 20 K 100 2.0
Saída 2 mil 500 1.0
Leitura de cache 15 mil 10 0.15
Gravação em cache 5K 125 0.625
Total 3.775 AAUs

Dica

Para manter os custos de fluxo ativo previsíveis, defina um limite mensal de alocação de AAU em Configurações>Consumo do agente.

Monitorar seus custos

No portal do Agente SRE

Vá para Configurações>consumo do Agente para exibir seu uso:

  • Limite mensal de AAUs: exibe sua alocação combinada de fluxos sempre ativos e ativos.
  • Consumo total de fluxo ativo: Mostra uma barra de progresso que compara o uso atual com o limite.
  • Consumo diário de fluxo ativo: Apresenta um gráfico de barras que exibe o uso de AAU por dia durante o mês atual.
  • Detalhamento de uso de token: Mostra o total de tokens consumidos por categoria (entrada, saída, leitura de cache e gravação em cache) para que você possa ver exatamente para onde seus AAUs estão indo.

Definir um limite de gastos de fluxo ativo

Selecione Alterar alocação de AAU para definir um limite de AAU de fluxo ativo mensal (mínimo de 500, máximo de 1.000.000 AAUs). Esse limite se aplica somente ao fluxo ativo. O faturamento contínuo prossegue enquanto o agente existir.

  • Quando o agente atinge o limite de fluxo ativo, ele fica indisponível para chat e ações até o próximo mês. As cobranças contínuas continuam pelo resto do mês.
  • Você pode aumentar ou diminuir a alocação a qualquer momento.
  • Os aumentos entrarão em vigor imediatamente. Se você elevar o limite acima do consumo atual, o chat e as ações serão retomados imediatamente.
  • As reduções abaixo do consumo atual entrarão em vigor no próximo mês. Até lá, o agente é executado somente no fluxo sempre ativado.

Impacto na cobrança por ação

Ação Fluxo ativo Always-on Para retomar no próximo mês
Definir limite de orçamento (atingir limite) Parada Ainda sendo cobrado Redefine automaticamente no início do mês.
Parar agente Parada Ainda sendo cobrado Selecione Iniciar manualmente no Conceitos Básicos> deConfigurações.
Excluir agente Parada Parada Criar um novo agente.

Em Gerenciamento de Custos da Microsoft

Para obter detalhamentos detalhados de cobrança entre vários agentes e recursos, utilize o Gerenciamento de Custos da Microsoft no portal do Azure.

Dicas de otimização de custos

Estratégia Impacto Como fazê-lo
Adicione contexto ao seu agente. Desperdiça menos tokens. Adicione habilidades, conhecimento e documentos para que o agente permaneça fundamentado e conciso. A memória persistente de interações passadas melhora a eficiência ao longo do tempo.
Filtrar incidentes com planos de resposta. Reduz o trabalho desnecessário. Use planos de resposta para filtrar alertas do Azure Monitor por severidade, serviço ou palavra-chave. O agente investiga apenas incidentes que coincidem.
Trabalho em lote com tarefas agendadas. Faz menos execuções. Agende tarefas a serem executadas diariamente ou semanalmente em vez de sondar continuamente.
Teste no chat antes de automatizar. Evita execuções desperdiçadas. Experimente seu prompt no chat ou no playground primeiro. Uma automação mal configurada é executada repetidamente e desperdiça AAUs.
Pare agentes ociosos. Elimina o fluxo ativo. Vá para As Noções Básicas de Configurações> e selecione Parar. O agente mantém sua configuração, mas interrompe todo o fluxo ativo. O custo de operação contínua continua até ser excluído.
Excluir agentes não utilizados. Elimina todos os custos. Na página da Web do Agente SRE do Azure, abra o agente e vá para Configurações, >, Excluir agente. Toda a cobrança é interrompida imediatamente.

Perguntas frequentes

Como o agente computa AAUs a partir de tokens?

Sempre que o agente executa o trabalho, ele rastreia os tokens de LLM consumidos nos quatro tipos de token e os mede com as taxas de AAU do modelo configurado. Você pode ver seu consumo de AAU em Configurações>Consumo do Agente.

O provedor escolhido afeta meus custos?

O provedor de modelo (Antropico, OpenAI e outros) é definido no nível do agente e determina quais taxas de AAU se aplicam. Modelos diferentes têm taxas diferentes. Para obter as taxas atuais, consulte a tabela de taxas de AAU.

Qual modelo devo escolher?

Claude Opus 4.6 tem taxas de AAU mais altas, mas normalmente produz investigações mais completas com menos etapas de raciocínio. Para investigações complexas de incidentes e análise de causa raiz, o Opus geralmente chega a uma conclusão em menos chamadas de ferramenta, o que pode compensar a taxa mais alta por token.

Os modelos de GPT são uma boa opção para tarefas mais simples e de alto volume, como verificações de conformidade agendadas em que a eficiência de custo importa mais do que a profundidade. Você pode alterar seu provedor de modelos a qualquer momento no Conceitos Básicos de Configurações> e comparar resultados.

Eu sou cobrado enquanto o agente aguarda minha resposta?

Não. Somente o tempo que o agente gasta processando ativamente uma tarefa conta como fluxo ativo. Se o agente solicitar sua aprovação e aguardar, o tempo de espera não será cobrado.

O que conta como fluxo ativo?

Sempre que o agente estiver fazendo o trabalho ativamente conta como fluxo ativo, como os seguintes exemplos:

  • Prompts interativos: um usuário faz uma pergunta ao agente no chat.
  • Automação: tarefas agendadas, planos de resposta a incidentes ou outros gatilhos automatizados.
  • Operações assíncronas: investigações em segundo plano, geração de relatórios ou tarefas de correção.

Em todos os casos, o agente mede os tokens consumidos como AAUs.

O que acontece se eu cancelar meu agente?

Um agente parado não pode monitorar seus recursos nem responder a solicitações, mas ainda assim gera o custo fixo de manutenção. As AAUs de fluxo ativo não são consumidas enquanto são interrompidas. Para parar o agente, vá para As Noções Básicas de Configurações> e selecione Parar. Para retomar, selecione Iniciar na mesma página. Para interromper totalmente toda a cobrança, exclua o agente.

Um agente pode lidar com várias cargas de trabalho?

Sim. Um único agente pode monitorar vários recursos em seu escopo configurado. A consolidação de cargas de trabalho em um único agente reduz os custos contínuos em comparação com implantar agentes separados.

Há uma camada gratuita?

Não. As cobranças do Agente SRE do Azure começam a partir da criação do agente. Para obter as taxas atuais, consulte a calculadora de preços do Azure.

O preço é o mesmo em todas as regiões?

Para obter preços atuais em sua região, verifique a calculadora de preços do Azure.