Microsoft quotas e limites de Modelos Foundry (clássico)

Exibição no momento:Versão do portal do Foundry - Alternar para a versão do novo portal do Foundry

Nota

Links neste artigo podem abrir conteúdo na nova documentação do Microsoft Foundry em vez da documentação da Foundry (clássica) que você está exibindo agora.

Este artigo fornece uma referência rápida e uma descrição detalhada das cotas e limites para modelos Foundry vendidos diretamente por Azure. Para cotas e limites específicos do Azure OpenAI em Modelos Foundry, veja Cotas e limites no Azure OpenAI.

Atualizações do gerenciamento de cotas após 05/06/2025

Microsoft Foundry está introduzindo uma atualização para o gerenciamento de cotas para trazer consistência e previsibilidade para como a cota é gerenciada entre implantações. Começando com o Realtime Translate e o Realtime Whisper, a cota para implantações é controlada no nível da assinatura, compartilhada em todos os recursos e regiões, em vez de ser alocada separadamente por recurso ou por região.

Essa alteração consolida a cota em pools compartilhados:

Padrão Global: implantações do mesmo modelo e versão compartilham um pool de cotas em todas as regiões em uma assinatura.
Data Zone Standard: implantações do mesmo modelo e de versão compartilham um pool de cotas por zona de dados (por exemplo, EUA ou UE).

O que está mudando para mim?

Para os modelos que foram integrados ao novo sistema de gerenciamento de cotas:

Todas as implantações do Global Standard do mesmo modelo e versão sob uma assinatura agora utilizam um pool de cotas compartilhado único em todas as regiões.
Todas as implantações padrão da zona de dados do mesmo modelo e versão sob a mesma assinatura agora utilizam um pool de cotas comum em cada zona de dados.
A cota aprovada existente é retida e se aplica automaticamente no nível da assinatura— nenhuma ação necessária.

Essa consolidação permite que Microsoft Foundry ofereçam modelos compatíveis em todas as regiões do Foundry, independentemente de como a cota é distribuída entre recursos ou regiões.

Importante

Atualmente, o gerenciamento de cotas atualizado aplica-se apenas ao Realtime Translate e ao Realtime Whisper. Para todos os outros Modelos de Fundação abordados neste artigo, as cotas e os limites são gerenciados por região, por assinatura e por modelo ou tipo de implantação. No futuro, essas diretrizes de cota também se aplicarão a alguns modelos existentes e aos novos lançamentos de Modelos Foundry.

Referência de cotas e limites

As seções a seguir fornecem um guia rápido sobre as cotas e limites padrão que se aplicam aos Modelos do Foundry. Cotas e limites não são impostos no nível do locatário. Em vez disso, o nível mais alto de restrições de cota é definido no nível de assinatura Azure. Os tokens por minuto (TPM) e os limites de RPM (solicitações por minuto) são definidos por região, por assinatura e por modelo ou tipo de implantação.

Limites de recursos (por assinatura Azure, por região)

Nome do limite	Valor limite
Recursos de fábrica por região por assinatura do Azure	100
Máximo de projetos por recurso	250
Máximo de implantações por recurso (implantações de modelo em um recurso Foundry)	32

Limites de taxa

A tabela a seguir lista os limites dos Modelos de Fundição para os seguintes valores:

Tokens por minuto
Solicitações por minuto
Solicitação simultânea

Modelos	Tokens por minuto	Solicitações por minuto	Solicitações simultâneas
modelos do Azure OpenAI	Varia por modelo e SKU. Consulte limits para Azure OpenAI.	Varia por modelo e SKU. Consulte limits para Azure OpenAI.	Pode variar. Consulte limites do Azure OpenAI.
- DeepSeek-R1 - DeepSeek-V3-0324	5,000,000	5,000	300
– Llama 3.3 70B Instruct - Llama-4-Maverick-17B-128E-Instruct-FP8 - Grok 3 - Grok 3 mini	400,000	1,000	300
- Flux.2-Pro	não aplicável	- Baixo (padrão): 15 - Médio: 30 - Alta (Empresarial): 100	não aplicável
- Flux-Pro 1.1 - Flux.1-Kontext Pro	não aplicável	2 unidades de capacidade (6 solicitações por minuto)	não aplicável
Restante dos modelos	400,000	1,000	300

Para aumentar sua cota:

Para o Azure OpenAI, use o Foundry Service: Solicitação para Aumento de Cota para enviar seu pedido.
Para outros modelos, consulte solicitações de aumento dos limites padrão.

Devido à alta demanda, as solicitações de aumento de limite são avaliadas individualmente.

Outros limites

Nome do limite	Valor limite
Número máximo de cabeçalhos personalizados nas solicitações^de API 1	10

¹ As APIs atuais permitem até 10 cabeçalhos personalizados, que o pipeline passa e retorna. Se você exceder essa contagem de cabeçalho, sua solicitação resultará em um erro HTTP 431. Para resolver esse erro, reduza o volume do cabeçalho. As versões futuras da API não passarão por cabeçalhos personalizados. Não dependa de cabeçalhos personalizados em arquiteturas futuras do sistema.

Níveis de uso

As implantações padrão global usam a infraestrutura global do Azure para rotear dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Essa infraestrutura permite latência mais consistente para clientes com níveis baixos a médios de tráfego. Clientes com altos níveis sustentados de uso podem ver mais variabilidades na latência de resposta.

O Limite de Uso determina o nível de uso acima do qual os clientes podem ver maior variabilidade na latência de resposta. O uso de um cliente é definido por modelo e é o total de tokens consumidos em todas as implantações em todas as assinaturas em todas as regiões para um determinado locatário.

Solicitar aumentos para os limites padrão

Envie o formulário de solicitação de aumento de quota para solicitar aumentos de cota para modelos Foundry vendidos diretamente pela Azure, modelos Azure OpenAI e modelos Anthropic. Com exceção de modelos da Anthropic, Modelos de parceiros e comunidade não dão suporte a aumentos de cota.

As solicitações de aumento de cota são processadas na ordem em que são recebidas e a prioridade vai para os clientes que usam ativamente sua alocação de cota existente. Solicitações que não atendem a essa condição podem ser negadas.

Práticas recomendadas gerais para se manter dentro dos limites de taxa

Para minimizar problemas relacionados aos limites de taxa, use as seguintes técnicas:

Implemente a lógica de repetição em seu aplicativo.
Evite alterações acentuadas na carga de trabalho. Aumente gradualmente a carga de trabalho.
Teste diferentes padrões de aumento de carga.
Aumente a cota atribuída à sua implantação. Mova a quota de outra implantação, se necessário.

Configurando o tempo limite do lado do cliente

Defina explicitamente o tempo limite do lado do cliente com base nas instruções a seguir.

Nota

Se não for definido explicitamente, o tempo limite do lado do cliente existe de acordo com a biblioteca usada e pode não ser os mesmos limites que acima.

Modelos de raciocínio (modelos que geram tokens de raciocínio intermediários antes de produzir uma resposta resumida): até 29 minutos.
Modelos sem raciocínio:
- Para streaming, até 60 segundos.
- Para solicitações que não são de streaming, até 29 minutos.

29 minutos aqui não significa que todas as solicitações levem 29 minutos, mas, dependendo dos tokens de contexto, dos tokens gerados e das taxas de ocorrência do cache, as solicitações podem levar até 29 minutos.

Defina um tempo limite menor que esses valores, ajustado para seus padrões de tráfego.

Para modelos de raciocínio, incluindo solicitações de streaming, todos os tokens de raciocínio são gerados primeiro e, em seguida, resumidos antes de enviar o primeiro token de resposta de volta para o usuário.

Você pode modificar o parâmetro de esforço de raciocínio para controlar o número de tokens de raciocínio gerados no processo.

Solucionando problemas

Sintoma	Causa	Resolução
Solicitações HTTP 429 Muitas Solicitações	Limite de token por minuto ou de requisição por minuto excedido	Implementar lógica de repetição com recuo exponencial. Use o valor do cabeçalho `Retry-After`.
Campos de cabeçalho de solicitação HTTP 431 muito grandes	Mais de 10 cabeçalhos personalizados enviados	Reduza os cabeçalhos personalizados para 10 ou menos.
A página de cota mostra 0 disponível	Assinatura ou cota regional integralmente alocada	Mova quota não utilizada de outra implantação. Para aumentar o limite, solicite um aumento de cota.
Modelo não disponível na região	O modelo não é implantado ou tem suporte na região selecionada	Verifique a disponibilidade do modelo e escolha uma região disponível.

Comentários

Esta página foi útil?

Last updated on 2026-05-08