Otimizar o custo e o desempenho do modelo

Quando os custos do modelo ou do agente começarem a aumentar, use Ask AI (versão prévia) para diagnosticar rapidamente problemas, tomar medidas e verificar melhorias. O Ask AI é um assistente de chat interno que você pode acessar na barra de ferramentas no portal do Microsoft Foundry. Para obter mais informações sobre as limitações e funcionalidades do Ask AI, consulte Solicitar ajuda à IA (versão prévia).

Neste artigo, você identifica picos de custo, alterna para um modelo econômico e valida melhorias de desempenho usando o portal do Foundry.

Nota

Quando você direciona a IA para executar tarefas que modificam seus recursos de Azure, como implantar um modelo ou alterar uma implantação, o Ask AI propõe ações para que você examine e aprove antes de executá-los. Você pode configurar as definições de aprovação clicando no ícone de configurações no prompt do Ask AI. Para obter mais informações, consulte Solicitar ajuda à IA (versão prévia).

Pré-requisitos

Uma conta Azure com uma assinatura ativa. Se você não tiver uma, crie uma conta de Azure free, que inclui uma assinatura de avaliação gratuita.
Um projeto do Foundry. Se você não tiver um, crie um projeto.

As seguintes permissões:
- Leia o acesso ao projeto e à assinatura para o qual você deseja exibir os dados.
- Log Analytics Reader função ou superior no recurso do Application Insights associado ao seu agente.
- Função Cost Management Reader
Application Insights configurado para seu projeto do Foundry. Para obter mais informações, consulte Configurar o monitoramento.
Pelo menos um agente implantado ou publicado com dados de custo. Para uma análise de tendência significativa, você precisa de um mínimo de sete dias de dados de uso.
O agente Ask AI habilitado em seu projeto Foundry. Ele está disponível em versão prévia na barra de ferramentas do portal do Foundry. Se você não o vir, verifique se o projeto está localizado em uma região suportada e se o administrador não desabilitou o recurso.
Um conjunto de dados de avaliação que representa a carga de trabalho típica do agente. Use esse conjunto de dados para comparar o desempenho do modelo após a troca de modelos.

Detectar aumentos de custos

Comece abrindo o agente de IA Ask na barra de ferramentas. Ou vá para aVisão Geral do > para usar um dos prompts predefinidos específicos para otimização e desempenho do agente.

Peça ao assistente para fornecer um resumo das suas métricas e dados de custo do painel de controle Foundry. Você pode selecionar um prompt predefinido no painel Visão Geral ou digitar sua própria pergunta, como:

Resuma minha tendência de custos recente.
"Quais agentes contribuíram mais para o meu aumento de custos?"

O agente de IA Ask gera um resumo que destaca os principais fatores determinantes de custo, como alto uso de token, maior comprimento de conclusão ou execuções frequentes de avaliação. O resumo inclui links anotados para os gráficos de dashboard para inspeção mais profunda.

Investigar agentes de alto custo

Depois de examinar o resumo, você pode explorar insights detalhados para agentes específicos perguntando:

"Mostre-me detalhes de custo e desempenho para [nome do agente]."
"Divida o custo por modelo ou implementação para este agente."

Você também pode selecionar Ativos no painel esquerdo. Em seguida, selecione Exibir detalhes do Agente para exibir o painel Ativos . Lá, você pode comparar seus agentes em relação ao custo e uso de tokens, e ver qual agente tem o maior custo.

Alternar para um modelo econômico

Ao identificar um modelo como um driver de custo, use a IA do Ask para encontrar uma alternativa mais econômica.

No Ask AI, insira um prompt como "Recomendar um modelo mais barato com desempenho semelhante" ou "Comparar custo e qualidade para modelos semelhantes a [modelo atual]".
Examine a resposta. O Ask AI recomenda modelos alternativos do catálogo de modelos com comparações de desempenho e custo. Examine as recomendações e selecione um modelo que atenda às suas necessidades.
Implante o novo modelo. O recurso Perguntar à IA pode iniciar a implantação diretamente no chat ou fornecer um link para a página de implantação. Você também pode implantar manualmente. Para obter etapas detalhadas de implantação, consulte Implantar Modelos do Microsoft Foundry no portal Foundry ou Implantar modelos usando CLI do Azure e Bicep.
Após a conclusão da implantação, verifique se o novo modelo aparece na lista de implantação do agente com um status bem-sucedido .

Dica

Se o Ask AI não estiver disponível, compare os modelos usando a classificação de modelos.

Avaliar as diferenças de custo e qualidade do modelo

Depois de alternar modelos, compare os modelos antigos e novos executando uma avaliação.

No Ask AI, insira um prompt como "Quero avaliar e comparar o modelo antigo e novo".
Siga as diretrizes fornecidas pelo Ask AI. Para criar rodadas de avaliação, vá para a seção de avaliação do seu projeto.
Crie duas execuções de avaliação: uma para o modelo original e outra para o novo modelo.
Aguarde até que ambas as execuções de avaliação terminem. Acesse aVisão Geral do > ou o histórico de avaliação em seu projeto para comparar os resultados lado a lado.
Procure diferenças nas pontuações de qualidade, latência e custo por token. No histórico de avaliação, verifique se ambas as execuções mostram um status concluído com pontuações para cada métrica.

Principais métricas a serem comparadas:
- Fundamentação – como as respostas são fundamentadas nos dados de origem
- Relevância – como as respostas relevantes são para a consulta
- Coerência – como as respostas logicamente consistentes são
- Latência – tempo de resposta para o modelo
- Custo por token – a eficiência de custo do modelo
Concentre-se nas métricas que se alinham aos requisitos de qualidade do agente.

Atualize a implantação do modelo do agente

Quando você confirmar que o novo modelo atende aos seus requisitos de custo e desempenho, atualize o agente para usá-lo.

No portal do Foundry, vá para Criar>Agentes.
Selecione o agente que você deseja atualizar.
Altere o modelo para a nova implantação.
Teste o agente para verificar se ele responde corretamente com o novo modelo.
Na página de detalhes do agente, selecione Salvar para criar uma nova versão. Verifique se o número de versão foi incrementado e se o nome do modelo reflete a nova implantação.

Depois de verificar se o novo modelo funciona corretamente, considere excluir a implantação do modelo antigo para evitar custos contínuos.

Acompanhar melhorias de custo e desempenho

Para verificar melhorias após a opção de modelo, verifique os dados de custo mais recentes.

Abra a IA do Ask na barra de ferramentas.
Digite um comando como "mostre o resumo dos mais recentes dados sobre custo".
Examine o resumo. Perguntar à IA apresenta os dados de custo e desempenho disponíveis nas páginas de Operação>Visão Geral e Monitoramento, incluindo todas as métricas de avaliação contínua mostradas lá. O resumo destaca as alterações de tendência de custo em comparação com o período anterior.

Use esse fluxo de trabalho regularmente para monitorar a eficiência e retornar o investimento.

Solucionar problemas comuns

Questão	Causa	Resolução
Nenhum dado de custo é exibido no resumo	O Application Insights não está configurado para o projeto.	Configure o monitoramento para seu projeto do Foundry.
Perguntar à IA não responde aos prompts	O recurso pode estar temporariamente indisponível ou o prompt pode ser muito vago.	Experimente um prompt mais específico ou use o painel Operar>Visão Geral diretamente.
A IA pede aprovação antes de agir	O Ask AI propõe ações de revisão antes de modificar recursos do Azure.	Examine a ação proposta e selecione Aprovar para continuar. Para definir as configurações de pré-aprovação, selecione o ícone de configurações no prompt do chat de Ask IA.
Nenhum modelo alternativo recomendado	O modelo atual pode já ser a opção mais econômica ou o catálogo de modelos não tem alternativas comparáveis.	Navegue manualmente pelo catálogo de modelos do Foundry .
Execuções de avaliação não são concluídas	O conjunto de dados de avaliação pode estar configurado incorretamente ou muito grande.	Verifique a configuração do conjunto de dados de avaliação. Consulte Executar avaliações a partir do SDK.
Os dados de custo parecem obsoletos ou atrasados	Azure dados de cobrança podem levar de 24 a 48 horas para serem atualizados. A telemetria do Application Insights também pode ter um pequeno atraso.	Aguarde a conclusão do ciclo de cobrança e verifique novamente. Para dados quase em tempo real, confie nas métricas do Application Insights no painel Operar>Visão Geral .
A mudança de modelo gera uma regressão na qualidade	O novo modelo pode não ter um bom desempenho em sua carga de trabalho específica.	Reverta para o modelo de implantação anterior e realize avaliações mais específicas antes de alternar novamente.

Comentários

Esta página foi útil?

Last updated on 2026-04-30