Otimizar o custo e o desempenho do modelo

Quando os custos do modelo ou do agente começarem a aumentar, use Ask AI (versão prévia) para diagnosticar rapidamente problemas, tomar medidas e verificar melhorias. O Ask AI é um assistente de chat interno que você pode acessar na barra de ferramentas no portal do Microsoft Foundry. Para obter mais informações sobre as limitações e funcionalidades do Ask AI, consulte Solicitar ajuda à IA (versão prévia).

Neste artigo, você identifica picos de custo, alterna para um modelo econômico e valida melhorias de desempenho usando o portal do Foundry.

Nota

Quando você direciona a IA para executar tarefas que modificam seus recursos de Azure, como implantar um modelo ou alterar uma implantação, o Ask AI propõe ações para que você examine e aprove antes de executá-los. Você pode configurar as definições de aprovação clicando no ícone de configurações no prompt do Ask AI. Para obter mais informações, consulte Solicitar ajuda à IA (versão prévia).

Pré-requisitos

  • As seguintes permissões:

    • Leia o acesso ao projeto e à assinatura para o qual você deseja exibir os dados.
    • Log Analytics Reader função ou superior no recurso do Application Insights associado ao seu agente.
    • Função Cost Management Reader
  • Application Insights configurado para seu projeto do Foundry. Para obter mais informações, consulte Configurar o monitoramento.

  • Pelo menos um agente implantado ou publicado com dados de custo. Para uma análise de tendência significativa, você precisa de um mínimo de sete dias de dados de uso.

  • O agente Ask AI habilitado em seu projeto Foundry. Ele está disponível em versão prévia na barra de ferramentas do portal do Foundry. Se você não o vir, verifique se o projeto está localizado em uma região suportada e se o administrador não desabilitou o recurso.

  • Um conjunto de dados de avaliação que representa a carga de trabalho típica do agente. Use esse conjunto de dados para comparar o desempenho do modelo após a troca de modelos.

Detectar aumentos de custos

Comece abrindo o agente de IA Ask na barra de ferramentas. Ou vá para aVisão Geral do > para usar um dos prompts predefinidos específicos para otimização e desempenho do agente.

Peça ao assistente para fornecer um resumo das suas métricas e dados de custo do painel de controle Foundry. Você pode selecionar um prompt predefinido no painel Visão Geral ou digitar sua própria pergunta, como:

  • Resuma minha tendência de custos recente.

  • "Quais agentes contribuíram mais para o meu aumento de custos?"

O agente de IA Ask gera um resumo que destaca os principais fatores determinantes de custo, como alto uso de token, maior comprimento de conclusão ou execuções frequentes de avaliação. O resumo inclui links anotados para os gráficos de dashboard para inspeção mais profunda.

Investigar agentes de alto custo

Depois de examinar o resumo, você pode explorar insights detalhados para agentes específicos perguntando:

  • "Mostre-me detalhes de custo e desempenho para [nome do agente]."

  • "Divida o custo por modelo ou implementação para este agente."

Você também pode selecionar Ativos no painel esquerdo. Em seguida, selecione Exibir detalhes do Agente para exibir o painel Ativos . Lá, você pode comparar seus agentes em relação ao custo e uso de tokens, e ver qual agente tem o maior custo.

Alternar para um modelo econômico

Ao identificar um modelo como um driver de custo, use a IA do Ask para encontrar uma alternativa mais econômica.

  1. No Ask AI, insira um prompt como "Recomendar um modelo mais barato com desempenho semelhante" ou "Comparar custo e qualidade para modelos semelhantes a [modelo atual]".

  2. Examine a resposta. O Ask AI recomenda modelos alternativos do catálogo de modelos com comparações de desempenho e custo. Examine as recomendações e selecione um modelo que atenda às suas necessidades.

  3. Implante o novo modelo. O recurso Perguntar à IA pode iniciar a implantação diretamente no chat ou fornecer um link para a página de implantação. Você também pode implantar manualmente. Para obter etapas detalhadas de implantação, consulte Implantar Modelos do Microsoft Foundry no portal Foundry ou Implantar modelos usando CLI do Azure e Bicep.

  4. Após a conclusão da implantação, verifique se o novo modelo aparece na lista de implantação do agente com um status bem-sucedido .

Dica

Se o Ask AI não estiver disponível, compare os modelos usando a classificação de modelos.

Avaliar as diferenças de custo e qualidade do modelo

Depois de alternar modelos, compare os modelos antigos e novos executando uma avaliação.

  1. No Ask AI, insira um prompt como "Quero avaliar e comparar o modelo antigo e novo".

  2. Siga as diretrizes fornecidas pelo Ask AI. Para criar rodadas de avaliação, vá para a seção de avaliação do seu projeto.

  3. Crie duas execuções de avaliação: uma para o modelo original e outra para o novo modelo.

  4. Aguarde até que ambas as execuções de avaliação terminem. Acesse aVisão Geral do > ou o histórico de avaliação em seu projeto para comparar os resultados lado a lado.

  5. Procure diferenças nas pontuações de qualidade, latência e custo por token. No histórico de avaliação, verifique se ambas as execuções mostram um status concluído com pontuações para cada métrica.

    Principais métricas a serem comparadas:

    • Fundamentação – como as respostas são fundamentadas nos dados de origem
    • Relevância – como as respostas relevantes são para a consulta
    • Coerência – como as respostas logicamente consistentes são
    • Latência – tempo de resposta para o modelo
    • Custo por token – a eficiência de custo do modelo

    Concentre-se nas métricas que se alinham aos requisitos de qualidade do agente.

Atualize a implantação do modelo do agente

Quando você confirmar que o novo modelo atende aos seus requisitos de custo e desempenho, atualize o agente para usá-lo.

  1. No portal do Foundry, vá para Criar>Agentes.

  2. Selecione o agente que você deseja atualizar.

  3. Altere o modelo para a nova implantação.

  4. Teste o agente para verificar se ele responde corretamente com o novo modelo.

  5. Na página de detalhes do agente, selecione Salvar para criar uma nova versão. Verifique se o número de versão foi incrementado e se o nome do modelo reflete a nova implantação.

Depois de verificar se o novo modelo funciona corretamente, considere excluir a implantação do modelo antigo para evitar custos contínuos.

Acompanhar melhorias de custo e desempenho

Para verificar melhorias após a opção de modelo, verifique os dados de custo mais recentes.

  1. Abra a IA do Ask na barra de ferramentas.

  2. Digite um comando como "mostre o resumo dos mais recentes dados sobre custo".

  3. Examine o resumo. Perguntar à IA apresenta os dados de custo e desempenho disponíveis nas páginas de Operação>Visão Geral e Monitoramento, incluindo todas as métricas de avaliação contínua mostradas lá. O resumo destaca as alterações de tendência de custo em comparação com o período anterior.

Use esse fluxo de trabalho regularmente para monitorar a eficiência e retornar o investimento.

Solucionar problemas comuns

Questão Causa Resolução
Nenhum dado de custo é exibido no resumo O Application Insights não está configurado para o projeto. Configure o monitoramento para seu projeto do Foundry.
Perguntar à IA não responde aos prompts O recurso pode estar temporariamente indisponível ou o prompt pode ser muito vago. Experimente um prompt mais específico ou use o painel Operar>Visão Geral diretamente.
A IA pede aprovação antes de agir O Ask AI propõe ações de revisão antes de modificar recursos do Azure. Examine a ação proposta e selecione Aprovar para continuar. Para definir as configurações de pré-aprovação, selecione o ícone de configurações no prompt do chat de Ask IA.
Nenhum modelo alternativo recomendado O modelo atual pode já ser a opção mais econômica ou o catálogo de modelos não tem alternativas comparáveis. Navegue manualmente pelo catálogo de modelos do Foundry .
Execuções de avaliação não são concluídas O conjunto de dados de avaliação pode estar configurado incorretamente ou muito grande. Verifique a configuração do conjunto de dados de avaliação. Consulte Executar avaliações a partir do SDK.
Os dados de custo parecem obsoletos ou atrasados Azure dados de cobrança podem levar de 24 a 48 horas para serem atualizados. A telemetria do Application Insights também pode ter um pequeno atraso. Aguarde a conclusão do ciclo de cobrança e verifique novamente. Para dados quase em tempo real, confie nas métricas do Application Insights no painel Operar>Visão Geral .
A mudança de modelo gera uma regressão na qualidade O novo modelo pode não ter um bom desempenho em sua carga de trabalho específica. Reverta para o modelo de implantação anterior e realize avaliações mais específicas antes de alternar novamente.