Quotas e limites do Serviço de Agente de Fundição (clássico)

Nota

Este documento refere-se ao portal Microsoft Foundry (clássico).

Os Agentes (clássicos) estão agora obsoletos e serão descontinuados a 31 de março de 2027. Use os novos agentes no Serviço de Agentes Foundry da Microsoft, disponível para o público em geral. Siga o guia de migração para atualizar as suas cargas de trabalho.

Este artigo descreve as quotas e limites para o serviço Foundry Agent. Compreender estes limites ajuda-o a conceber agentes que escalem de forma fiável e evitem erros em tempo de execução em produção.

Como se aplicam quotas e limites

O serviço Foundry Agent impõe limites em dois locais:

  • Limites de Serviço de Agente. Limites para artefactos de agentes e threads, como carregamentos de ficheiros, anexos de armazenamento vetorial, contagem de mensagens e registo de ferramentas.
  • Limites de modelos. Quotas e limites de taxa para as implementações de modelos que os seus agentes chamam.

Se estiver a usar threads e mensagens, consulte Threads, execuções e mensagens no Foundry Agent Service. Se estiver a usar pesquisa de ficheiros, consulte Repositórios Vector para pesquisa de ficheiros.

Quotas e limites padrão para o serviço

A tabela seguinte lista os limites padrão aplicados pelo Serviço de Agentes. Estes limites aplicam-se a todos os projetos Foundry, independentemente do tipo de subscrição ou região.

Nome do limite Valor limite
Número máximo de ficheiros por agente/thread 10.000
Tamanho máximo do ficheiro para agentes 512 MB
Tamanho máximo para todos os ficheiros carregados para agentes 300 GB
Tamanho máximo do ficheiro em tokens para anexação a uma loja vetorial 2.000.000 de fichas
Número máximo de mensagens por thread 100,000
Tamanho máximo do text conteúdo por mensagem 1.500.000 caracteres
Número máximo de ferramentas registadas por agente 128

O Agent Service não impõe limites de taxa separados às chamadas de API. A limitação de taxa é aplicada ao nível da implementação do modelo. Consulte quotas e limites do Azure OpenAI para limites de taxa específicos do modelo.

Erros de limite de gestão

Quando ultrapassa um limite, o Serviço de Agente devolve um erro. Lide com estes erros com elegância na sua candidatura.

Cenário de erro Estado HTTP Código de erro Ação recomendada
Ficheiro demasiado grande 400 file_size_exceeded Dividir o conteúdo em ficheiros mais pequenos
Limite de tokens de armazenamento vetorial 400 token_limit_exceeded Reduzir o conteúdo dos ficheiros ou dividir ficheiros
Limite de mensagens de tópico 400 message_limit_exceeded Crie um novo tópico
Conteúdo da mensagem demasiado grande 400 content_size_exceeded Use a pesquisa de ficheiros para conteúdo grande
Ferramentas a mais 400 tool_limit_exceeded Remover ferramentas não utilizadas
Limite de taxa ultrapassado 429 rate_limit_exceeded Implementar retrocesso exponencial

Por exemplo:

  • O ficheiro ultrapassa o tamanho máximo: O carregamento do ficheiro falha. Divide o conteúdo em ficheiros mais pequenos ou reduz o tamanho dos ficheiros antes de carregares.
  • Limite de token de armazenamento vetorial: Anexar um ficheiro a um armazenamento vetorial falha se o ficheiro exceder o limite do token. Reduz o conteúdo do ficheiro ou divide-o em vários ficheiros.
  • Limite de mensagens de thread: Adicionar mensagens pode falhar depois de um thread atingir o limite de mensagens. Crie um novo tópico para uma nova sessão de conversa, ou arquive e rode os tópicos como parte do design da sua aplicação.
  • Tamanho do conteúdo da mensagem: Criar uma mensagem pode falhar se o text conteúdo for demasiado grande. Envie mensagens mais pequenas, ou mova conteúdos grandes para ficheiros e use a pesquisa de ficheiros.
  • Limite de registo de ferramentas: Criar ou atualizar um agente pode falhar se registar demasiadas ferramentas. Registe apenas as ferramentas de que precisas e prefere menos ferramentas reutilizáveis.

Para cenários de pesquisa de ficheiros, consulte Armazenamentos vetoriais para pesquisa de ficheiros para orientação sobre como gerir o crescimento do armazenamento vetorial.

Melhores práticas para se manter dentro dos limites

Utilize as seguintes práticas para reduzir falhas relacionadas com limites:

  • Mantém os ficheiros pequenos e focados. Prefiro vários documentos mais pequenos a um único documento grande.
  • Evite mensagens muito grandes. Coloca conteúdo longo em ficheiros carregados e consulta-os através da pesquisa de ficheiros.
  • Planeia conversas longas. Trate tópicos como estado de sessão e alterne para novos tópicos quando as conversas se tornarem muito longas.
  • Regista apenas as ferramentas necessárias. Remover ferramentas não utilizadas das definições de agentes.
  • Monitorizar as tendências de uso. Acompanhe a atividade dos agentes usando métricas do Foundry Agent Service para identificar crescimento antes de atingir os limites.

Quotas e limites para modelos

Os agentes seguem as quotas e limites de taxa para as implementações do modelo que utilizam.

Para quotas e limites atuais dos modelos, veja:

Para visualizar ou solicitar mais quotas de modelos, consulte Gerenciar e aumentar quotas de recursos com Microsoft Foundry (projetos Foundry).

Solicite um aumento do limite

Os limites neste artigo são valores padrão para o Foundry Agent Service. Se a sua carga de trabalho exigir limites mais elevados:

  • Quotas de modelo: Pode pedir aumentos para as quotas de implementação de modelos. Veja Gere e aumentar quotas de recursos com Microsoft Foundry.
  • Limites de serviço de agente: Os limites de ficheiros, mensagens e ferramentas listados neste artigo são limites fixos de serviço e não podem ser aumentados. Desenhe a sua aplicação para funcionar dentro destas limitações, utilizando as melhores práticas descritas anteriormente.