Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Nota
Este documento refere-se ao portal Microsoft Foundry (clássico).
Os Agentes (clássicos) estão agora obsoletos e serão descontinuados a 31 de março de 2027. Use os novos agentes no Serviço de Agentes Foundry da Microsoft, disponível para o público em geral. Siga o guia de migração para atualizar as suas cargas de trabalho.
Este artigo descreve as quotas e limites para o serviço Foundry Agent. Compreender estes limites ajuda-o a conceber agentes que escalem de forma fiável e evitem erros em tempo de execução em produção.
Como se aplicam quotas e limites
O serviço Foundry Agent impõe limites em dois locais:
- Limites de Serviço de Agente. Limites para artefactos de agentes e threads, como carregamentos de ficheiros, anexos de armazenamento vetorial, contagem de mensagens e registo de ferramentas.
- Limites de modelos. Quotas e limites de taxa para as implementações de modelos que os seus agentes chamam.
Se estiver a usar threads e mensagens, consulte Threads, execuções e mensagens no Foundry Agent Service. Se estiver a usar pesquisa de ficheiros, consulte Repositórios Vector para pesquisa de ficheiros.
Quotas e limites padrão para o serviço
A tabela seguinte lista os limites padrão aplicados pelo Serviço de Agentes. Estes limites aplicam-se a todos os projetos Foundry, independentemente do tipo de subscrição ou região.
| Nome do limite | Valor limite |
|---|---|
| Número máximo de ficheiros por agente/thread | 10.000 |
| Tamanho máximo do ficheiro para agentes | 512 MB |
| Tamanho máximo para todos os ficheiros carregados para agentes | 300 GB |
| Tamanho máximo do ficheiro em tokens para anexação a uma loja vetorial | 2.000.000 de fichas |
| Número máximo de mensagens por thread | 100,000 |
Tamanho máximo do text conteúdo por mensagem |
1.500.000 caracteres |
| Número máximo de ferramentas registadas por agente | 128 |
O Agent Service não impõe limites de taxa separados às chamadas de API. A limitação de taxa é aplicada ao nível da implementação do modelo. Consulte quotas e limites do Azure OpenAI para limites de taxa específicos do modelo.
Erros de limite de gestão
Quando ultrapassa um limite, o Serviço de Agente devolve um erro. Lide com estes erros com elegância na sua candidatura.
| Cenário de erro | Estado HTTP | Código de erro | Ação recomendada |
|---|---|---|---|
| Ficheiro demasiado grande | 400 | file_size_exceeded |
Dividir o conteúdo em ficheiros mais pequenos |
| Limite de tokens de armazenamento vetorial | 400 | token_limit_exceeded |
Reduzir o conteúdo dos ficheiros ou dividir ficheiros |
| Limite de mensagens de tópico | 400 | message_limit_exceeded |
Crie um novo tópico |
| Conteúdo da mensagem demasiado grande | 400 | content_size_exceeded |
Use a pesquisa de ficheiros para conteúdo grande |
| Ferramentas a mais | 400 | tool_limit_exceeded |
Remover ferramentas não utilizadas |
| Limite de taxa ultrapassado | 429 | rate_limit_exceeded |
Implementar retrocesso exponencial |
Por exemplo:
- O ficheiro ultrapassa o tamanho máximo: O carregamento do ficheiro falha. Divide o conteúdo em ficheiros mais pequenos ou reduz o tamanho dos ficheiros antes de carregares.
- Limite de token de armazenamento vetorial: Anexar um ficheiro a um armazenamento vetorial falha se o ficheiro exceder o limite do token. Reduz o conteúdo do ficheiro ou divide-o em vários ficheiros.
- Limite de mensagens de thread: Adicionar mensagens pode falhar depois de um thread atingir o limite de mensagens. Crie um novo tópico para uma nova sessão de conversa, ou arquive e rode os tópicos como parte do design da sua aplicação.
-
Tamanho do conteúdo da mensagem: Criar uma mensagem pode falhar se o
textconteúdo for demasiado grande. Envie mensagens mais pequenas, ou mova conteúdos grandes para ficheiros e use a pesquisa de ficheiros. - Limite de registo de ferramentas: Criar ou atualizar um agente pode falhar se registar demasiadas ferramentas. Registe apenas as ferramentas de que precisas e prefere menos ferramentas reutilizáveis.
Para cenários de pesquisa de ficheiros, consulte Armazenamentos vetoriais para pesquisa de ficheiros para orientação sobre como gerir o crescimento do armazenamento vetorial.
Melhores práticas para se manter dentro dos limites
Utilize as seguintes práticas para reduzir falhas relacionadas com limites:
- Mantém os ficheiros pequenos e focados. Prefiro vários documentos mais pequenos a um único documento grande.
- Evite mensagens muito grandes. Coloca conteúdo longo em ficheiros carregados e consulta-os através da pesquisa de ficheiros.
- Planeia conversas longas. Trate tópicos como estado de sessão e alterne para novos tópicos quando as conversas se tornarem muito longas.
- Regista apenas as ferramentas necessárias. Remover ferramentas não utilizadas das definições de agentes.
- Monitorizar as tendências de uso. Acompanhe a atividade dos agentes usando métricas do Foundry Agent Service para identificar crescimento antes de atingir os limites.
Quotas e limites para modelos
Os agentes seguem as quotas e limites de taxa para as implementações do modelo que utilizam.
Para quotas e limites atuais dos modelos, veja:
Para visualizar ou solicitar mais quotas de modelos, consulte Gerenciar e aumentar quotas de recursos com Microsoft Foundry (projetos Foundry).
Solicite um aumento do limite
Os limites neste artigo são valores padrão para o Foundry Agent Service. Se a sua carga de trabalho exigir limites mais elevados:
- Quotas de modelo: Pode pedir aumentos para as quotas de implementação de modelos. Veja Gere e aumentar quotas de recursos com Microsoft Foundry.
- Limites de serviço de agente: Os limites de ficheiros, mensagens e ferramentas listados neste artigo são limites fixos de serviço e não podem ser aumentados. Desenhe a sua aplicação para funcionar dentro destas limitações, utilizando as melhores práticas descritas anteriormente.