Quotas e limites do Serviço de Agente de Fundição (clássico)

Nota

Este documento refere-se ao portal Microsoft Foundry (clássico).

Os Agentes (clássicos) estão agora obsoletos e serão descontinuados a 31 de março de 2027. Use os novos agentes no Serviço de Agentes Foundry da Microsoft, disponível para o público em geral. Siga o guia de migração para atualizar as suas cargas de trabalho.

Este artigo descreve as quotas e limites para o serviço Foundry Agent. Compreender estes limites ajuda-o a conceber agentes que escalem de forma fiável e evitem erros em tempo de execução em produção.

Como se aplicam quotas e limites

O serviço Foundry Agent impõe limites em dois locais:

Limites de Serviço de Agente. Limites para artefactos de agentes e threads, como carregamentos de ficheiros, anexos de armazenamento vetorial, contagem de mensagens e registo de ferramentas.
Limites de modelos. Quotas e limites de taxa para as implementações de modelos que os seus agentes chamam.

Se estiver a usar threads e mensagens, consulte Threads, execuções e mensagens no Foundry Agent Service. Se estiver a usar pesquisa de ficheiros, consulte Repositórios Vector para pesquisa de ficheiros.

Quotas e limites padrão para o serviço

A tabela seguinte lista os limites padrão aplicados pelo Serviço de Agentes. Estes limites aplicam-se a todos os projetos Foundry, independentemente do tipo de subscrição ou região.

Nome do limite	Valor limite
Número máximo de ficheiros por agente/thread	10.000
Tamanho máximo do ficheiro para agentes	512 MB
Tamanho máximo para todos os ficheiros carregados para agentes	300 GB
Tamanho máximo do ficheiro em tokens para anexação a uma loja vetorial	2.000.000 de fichas
Número máximo de mensagens por thread	100,000
Tamanho máximo do `text` conteúdo por mensagem	1.500.000 caracteres
Número máximo de ferramentas registadas por agente	128

O Agent Service não impõe limites de taxa separados às chamadas de API. A limitação de taxa é aplicada ao nível da implementação do modelo. Consulte quotas e limites do Azure OpenAI para limites de taxa específicos do modelo.

Erros de limite de gestão

Quando ultrapassa um limite, o Serviço de Agente devolve um erro. Lide com estes erros com elegância na sua candidatura.

Cenário de erro	Estado HTTP	Código de erro	Ação recomendada
Ficheiro demasiado grande	400	`file_size_exceeded`	Dividir o conteúdo em ficheiros mais pequenos
Limite de tokens de armazenamento vetorial	400	`token_limit_exceeded`	Reduzir o conteúdo dos ficheiros ou dividir ficheiros
Limite de mensagens de tópico	400	`message_limit_exceeded`	Crie um novo tópico
Conteúdo da mensagem demasiado grande	400	`content_size_exceeded`	Use a pesquisa de ficheiros para conteúdo grande
Ferramentas a mais	400	`tool_limit_exceeded`	Remover ferramentas não utilizadas
Limite de taxa ultrapassado	429	`rate_limit_exceeded`	Implementar retrocesso exponencial

Por exemplo:

O ficheiro ultrapassa o tamanho máximo: O carregamento do ficheiro falha. Divide o conteúdo em ficheiros mais pequenos ou reduz o tamanho dos ficheiros antes de carregares.
Limite de token de armazenamento vetorial: Anexar um ficheiro a um armazenamento vetorial falha se o ficheiro exceder o limite do token. Reduz o conteúdo do ficheiro ou divide-o em vários ficheiros.
Limite de mensagens de thread: Adicionar mensagens pode falhar depois de um thread atingir o limite de mensagens. Crie um novo tópico para uma nova sessão de conversa, ou arquive e rode os tópicos como parte do design da sua aplicação.
Tamanho do conteúdo da mensagem: Criar uma mensagem pode falhar se o text conteúdo for demasiado grande. Envie mensagens mais pequenas, ou mova conteúdos grandes para ficheiros e use a pesquisa de ficheiros.
Limite de registo de ferramentas: Criar ou atualizar um agente pode falhar se registar demasiadas ferramentas. Registe apenas as ferramentas de que precisas e prefere menos ferramentas reutilizáveis.

Para cenários de pesquisa de ficheiros, consulte Armazenamentos vetoriais para pesquisa de ficheiros para orientação sobre como gerir o crescimento do armazenamento vetorial.

Melhores práticas para se manter dentro dos limites

Utilize as seguintes práticas para reduzir falhas relacionadas com limites:

Mantém os ficheiros pequenos e focados. Prefiro vários documentos mais pequenos a um único documento grande.
Evite mensagens muito grandes. Coloca conteúdo longo em ficheiros carregados e consulta-os através da pesquisa de ficheiros.
Planeia conversas longas. Trate tópicos como estado de sessão e alterne para novos tópicos quando as conversas se tornarem muito longas.
Regista apenas as ferramentas necessárias. Remover ferramentas não utilizadas das definições de agentes.
Monitorizar as tendências de uso. Acompanhe a atividade dos agentes usando métricas do Foundry Agent Service para identificar crescimento antes de atingir os limites.

Quotas e limites para modelos

Os agentes seguem as quotas e limites de taxa para as implementações do modelo que utilizam.

Para quotas e limites atuais dos modelos, veja:

Para visualizar ou solicitar mais quotas de modelos, consulte Gerenciar e aumentar quotas de recursos com Microsoft Foundry (projetos Foundry).

Solicite um aumento do limite

Os limites neste artigo são valores padrão para o Foundry Agent Service. Se a sua carga de trabalho exigir limites mais elevados:

Quotas de modelo: Pode pedir aumentos para as quotas de implementação de modelos. Veja Gere e aumentar quotas de recursos com Microsoft Foundry.
Limites de serviço de agente: Os limites de ficheiros, mensagens e ferramentas listados neste artigo são limites fixos de serviço e não podem ser aumentados. Desenhe a sua aplicação para funcionar dentro destas limitações, utilizando as melhores práticas descritas anteriormente.

Comentários

Esta página foi útil?

Last updated on 2026-05-01