Microsoft quotas e limites de Modelos Foundry (clássico)

Exibição no momento:Versão do portal do Foundry - Alternar para a versão do novo portal do Foundry

Nota

Links neste artigo podem abrir conteúdo na nova documentação do Microsoft Foundry em vez da documentação da Foundry (clássica) que você está exibindo agora.

Este artigo fornece uma referência rápida e uma descrição detalhada das cotas e limites para modelos Foundry vendidos diretamente por Azure. Para cotas e limites específicos do Azure OpenAI em Modelos Foundry, veja Cotas e limites no Azure OpenAI.

Atualizações do gerenciamento de cotas após 05/06/2025

Microsoft Foundry está introduzindo uma atualização para o gerenciamento de cotas para trazer consistência e previsibilidade para como a cota é gerenciada entre implantações. Começando com o Realtime Translate e o Realtime Whisper, a cota para implantações é controlada no nível da assinatura, compartilhada em todos os recursos e regiões, em vez de ser alocada separadamente por recurso ou por região.

Essa alteração consolida a cota em pools compartilhados:

  • Padrão Global: implantações do mesmo modelo e versão compartilham um pool de cotas em todas as regiões em uma assinatura.
  • Data Zone Standard: implantações do mesmo modelo e de versão compartilham um pool de cotas por zona de dados (por exemplo, EUA ou UE).

O que está mudando para mim?

Para os modelos que foram integrados ao novo sistema de gerenciamento de cotas:

  • Todas as implantações do Global Standard do mesmo modelo e versão sob uma assinatura agora utilizam um pool de cotas compartilhado único em todas as regiões.
  • Todas as implantações padrão da zona de dados do mesmo modelo e versão sob a mesma assinatura agora utilizam um pool de cotas comum em cada zona de dados.
  • A cota aprovada existente é retida e se aplica automaticamente no nível da assinatura— nenhuma ação necessária.

Essa consolidação permite que Microsoft Foundry ofereçam modelos compatíveis em todas as regiões do Foundry, independentemente de como a cota é distribuída entre recursos ou regiões.

Importante

Atualmente, o gerenciamento de cotas atualizado aplica-se apenas ao Realtime Translate e ao Realtime Whisper. Para todos os outros Modelos de Fundação abordados neste artigo, as cotas e os limites são gerenciados por região, por assinatura e por modelo ou tipo de implantação. No futuro, essas diretrizes de cota também se aplicarão a alguns modelos existentes e aos novos lançamentos de Modelos Foundry.

Referência de cotas e limites

As seções a seguir fornecem um guia rápido sobre as cotas e limites padrão que se aplicam aos Modelos do Foundry. Cotas e limites não são impostos no nível do locatário. Em vez disso, o nível mais alto de restrições de cota é definido no nível de assinatura Azure. Os tokens por minuto (TPM) e os limites de RPM (solicitações por minuto) são definidos por região, por assinatura e por modelo ou tipo de implantação.

Limites de recursos (por assinatura Azure, por região)

Nome do limite Valor limite
Recursos de fábrica por região por assinatura do Azure 100
Máximo de projetos por recurso 250
Máximo de implantações por recurso (implantações de modelo em um recurso Foundry) 32

Limites de taxa

A tabela a seguir lista os limites dos Modelos de Fundição para os seguintes valores:

  • Tokens por minuto
  • Solicitações por minuto
  • Solicitação simultânea
Modelos Tokens por minuto Solicitações por minuto Solicitações simultâneas
modelos do Azure OpenAI Varia por modelo e SKU. Consulte limits para Azure OpenAI. Varia por modelo e SKU. Consulte limits para Azure OpenAI. Pode variar. Consulte limites do Azure OpenAI.
- DeepSeek-R1
- DeepSeek-V3-0324
5,000,000 5,000 300
– Llama 3.3 70B Instruct
- Llama-4-Maverick-17B-128E-Instruct-FP8
- Grok 3
- Grok 3 mini
400,000 1,000 300
- Flux.2-Pro não aplicável - Baixo (padrão): 15
- Médio: 30
- Alta (Empresarial): 100
não aplicável
- Flux-Pro 1.1
- Flux.1-Kontext Pro
não aplicável 2 unidades de capacidade (6 solicitações por minuto) não aplicável
Restante dos modelos 400,000 1,000 300

Para aumentar sua cota:

Devido à alta demanda, as solicitações de aumento de limite são avaliadas individualmente.

Outros limites

Nome do limite Valor limite
Número máximo de cabeçalhos personalizados nas solicitaçõesde API 1 10

1 As APIs atuais permitem até 10 cabeçalhos personalizados, que o pipeline passa e retorna. Se você exceder essa contagem de cabeçalho, sua solicitação resultará em um erro HTTP 431. Para resolver esse erro, reduza o volume do cabeçalho. As versões futuras da API não passarão por cabeçalhos personalizados. Não dependa de cabeçalhos personalizados em arquiteturas futuras do sistema.

Níveis de uso

As implantações padrão global usam a infraestrutura global do Azure para rotear dinamicamente o tráfego do cliente para o data center com a melhor disponibilidade para as solicitações de inferência do cliente. Essa infraestrutura permite latência mais consistente para clientes com níveis baixos a médios de tráfego. Clientes com altos níveis sustentados de uso podem ver mais variabilidades na latência de resposta.

O Limite de Uso determina o nível de uso acima do qual os clientes podem ver maior variabilidade na latência de resposta. O uso de um cliente é definido por modelo e é o total de tokens consumidos em todas as implantações em todas as assinaturas em todas as regiões para um determinado locatário.

Solicitar aumentos para os limites padrão

Envie o formulário de solicitação de aumento de quota para solicitar aumentos de cota para modelos Foundry vendidos diretamente pela Azure, modelos Azure OpenAI e modelos Anthropic. Com exceção de modelos da Anthropic, Modelos de parceiros e comunidade não dão suporte a aumentos de cota.

As solicitações de aumento de cota são processadas na ordem em que são recebidas e a prioridade vai para os clientes que usam ativamente sua alocação de cota existente. Solicitações que não atendem a essa condição podem ser negadas.

Práticas recomendadas gerais para se manter dentro dos limites de taxa

Para minimizar problemas relacionados aos limites de taxa, use as seguintes técnicas:

  • Implemente a lógica de repetição em seu aplicativo.
  • Evite alterações acentuadas na carga de trabalho. Aumente gradualmente a carga de trabalho.
  • Teste diferentes padrões de aumento de carga.
  • Aumente a cota atribuída à sua implantação. Mova a quota de outra implantação, se necessário.

Configurando o tempo limite do lado do cliente

Defina explicitamente o tempo limite do lado do cliente com base nas instruções a seguir.

Nota

Se não for definido explicitamente, o tempo limite do lado do cliente existe de acordo com a biblioteca usada e pode não ser os mesmos limites que acima.

  • Modelos de raciocínio (modelos que geram tokens de raciocínio intermediários antes de produzir uma resposta resumida): até 29 minutos.
  • Modelos sem raciocínio:
    • Para streaming, até 60 segundos.
    • Para solicitações que não são de streaming, até 29 minutos.

29 minutos aqui não significa que todas as solicitações levem 29 minutos, mas, dependendo dos tokens de contexto, dos tokens gerados e das taxas de ocorrência do cache, as solicitações podem levar até 29 minutos.

Defina um tempo limite menor que esses valores, ajustado para seus padrões de tráfego.

Para modelos de raciocínio, incluindo solicitações de streaming, todos os tokens de raciocínio são gerados primeiro e, em seguida, resumidos antes de enviar o primeiro token de resposta de volta para o usuário.

Você pode modificar o parâmetro de esforço de raciocínio para controlar o número de tokens de raciocínio gerados no processo.

Solucionando problemas

Sintoma Causa Resolução
Solicitações HTTP 429 Muitas Solicitações Limite de token por minuto ou de requisição por minuto excedido Implementar lógica de repetição com recuo exponencial. Use o valor do cabeçalho Retry-After.
Campos de cabeçalho de solicitação HTTP 431 muito grandes Mais de 10 cabeçalhos personalizados enviados Reduza os cabeçalhos personalizados para 10 ou menos.
A página de cota mostra 0 disponível Assinatura ou cota regional integralmente alocada Mova quota não utilizada de outra implantação. Para aumentar o limite, solicite um aumento de cota.
Modelo não disponível na região O modelo não é implantado ou tem suporte na região selecionada Verifique a disponibilidade do modelo e escolha uma região disponível.