Azure OpenAI nos modelos Microsoft Foundry: quotas e limites

Este artigo contém uma referência rápida e uma descrição detalhada das quotas e limites para o Azure OpenAI.

Âmbito da quota

Quotas e limites não são aplicados ao nível do inquilino. Em vez disso, o nível mais elevado de restrições de quotas é definido ao nível de subscrição do Azure.

Alocação de quotas regionais

Os limites de tokens por minuto (TPM) e pedidos por minuto (RPM) são definidos por região, por subscrição e por modelo ou tipo de implementação.

Por exemplo, se o modelo Global Standard gpt-4.1 estiver listado com uma quota de 5 milhões de TPM e 5.000 RPM, então cada região onde esse modelo ou tipo de implementação estiver disponível tem o seu próprio conjunto de quotas dedicado desse valor para cada de as tuas subscrições do Azure. Numa única subscrição Azure, é possível usar uma quantidade maior de quota total de TPM e RPM para um dado modelo e tipo de implementação, desde que tenha recursos e implementações de modelos distribuídos por várias regiões.

Escalões de quotas

Estamos a introduzir Quota Tiers para melhorar a experiência dos Modelos Foundry e reduzir o atrito à medida que as cargas de trabalho aumentam. As quotas vão agora aumentar automaticamente com a utilização, ajudando a evitar erros nos limites de taxa e ao mesmo tempo a criar um ambiente mais justo para todos os utilizadores. Serão disponibilizados sete níveis: Nível Gratuito e Níveis 1 a 6 – com o Nível 6 a oferecer as quotas mais elevadas. O nível inicial atribuído a um cliente baseia-se na utilização atual desse modelo e na sua relação atual com Microsoft, como o estatuto de Acordo Empresarial (EA ou MCA-E). 

O que está a mudar para mim?

Anteriormente, a Foundry oferecia apenas níveis de quota Default e Enterprise para o tipo de oferta pay as you go, com um grande intervalo entre cada nível e um processo mais longo para solicitar aumentos. Com os Quota Tiers, todos os utilizadores recebem um nível com quotas iguais ou superiores aos níveis anteriores. Quaisquer aumentos de quotas previamente aprovados são mantidos e não serão reduzidos. À medida que a utilização cresce, a Foundry aumenta automaticamente as quotas ao transferir utilizadores para níveis superiores, e quotas adicionais ainda podem ser solicitadas através do formulário de quota.

Como é que um cliente se move automaticamente de um nível para outro, por exemplo, quais são os critérios para a mudança de nível? 

As atualizações automáticas de níveis baseiam-se principalmente nas tendências de consumo dos clientes ao longo do tempo entre os Modelos Foundry. Se o consumo de um cliente aumentar de tal forma que o seu nível atual de quota limite a sua capacidade de usar modelos Foundry, o sistema irá automaticamente atualizar o cliente para o nível superior seguinte. A relação do cliente com a Microsoft também é tida em conta. Clientes com relações empresariais (incluindo EA e MCA-E) com Microsoft recebem níveis de quota superiores. Além disso, a Microsoft também considerará o histórico de pagamentos do cliente para determinar a elegibilidade para atualizações automáticas. 

Posso optar por não receber upgrades automáticos?

Sim, pode optar por não receber upgrades automáticos e permanecerá no seu nível atual independentemente das alterações no seu consumo. Reconhecemos que alguns dos nossos clientes utilizam quotas para gerir a faturação. Isto não é a melhor prática do Azure, no entanto, compreendemos que, se o seu sistema estiver configurado dessa forma, não queremos quebrá-lo. Pode saber mais sobre gestão de faturação e melhores práticas aqui: Gestão de Custos.

Para optar por não participar, pode definir o seguinte flag para NoAutoUpgrade:

curl -X PATCH \
  "https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
  -H "Content-Type: application/json" \
  -d '{
    "properties": {
      "tierUpgradePolicy": "NoAutoUpgrade"
    }
  }'

Nota

A funcionalidade de opt out é uma pré-visualização e pode estar sujeita a alterações ou remoção no futuro.

Posso pedir mais quota?

Sim, usando o formulário de pedido de quotas podes sempre pedir mais quotas. Se o pedido for aprovado, o nível atual permanecerá o mesmo, mas com mais quotas atribuídas.

Como posso verificar o nível de quota da minha subscrição?

Atualmente, pode verificar o seu nível de quota com a API do plano de controlo:

curl -X GET \
  "https://management.azure.com/subscriptions/9d295860-44e3-44bb-ade9-235cc45c68ba/providers/Microsoft.CognitiveServices/quotaTiers?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer $(az account get-access-token --resource https://management.azure.com --query accessToken -o tsv)" \
  -H "Content-Type: application/json"

import requests
import json
from azure.identity import DefaultAzureCredential


subscriptionId = "{YOUR-SUBSCRIPTION-ID}"
api_version = "2025-10-01-preview" 
base_url = "https://management.azure.com"

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {
    'Authorization': 'Bearer ' + token.token,
    'Content-Type': 'application/json'
}


list_url = (
    f"{base_url}/subscriptions/{subscriptionId}"
    f"/providers/Microsoft.CognitiveServices/quotaTiers"
    f"?api-version={api_version}"
)

response = requests.get(list_url, headers=headers)
print(json.dumps(response.json(), indent=2))

{
  "value": [
    {
      "properties": {
        "currentTierName": "Tier 1",
        "assignmentDate": "2025-10-18T05:09:05.6334222Z",
        "tierUpgradePolicy": "OnceUpgradeIsAvailable"
      },
      "id": "/subscriptions/aaaaa-bbbbb-ccccc-dddd-eeeeeee/providers/Microsoft.CognitiveServices/quotaTiers/default",
      "name": "default",
      "type": "Microsoft.CognitiveServices/quotaTiers"
    }
  ]
}

Referência de quota por nível

Nível 1

Nome do Modelo	Tipo de Implantação	Pedidos por Minuto (RPM)	Tokens por Minuto (TPM)
Codex-mini	GlobalStandard	1,000	1,000,000
pré-visualização de utilização do computador	GlobalStandard	4,500	450 000
GPT-4.1	DataZoneStandard	300	300,000
GPT-4.1	GlobalStandard	1,000	1,000,000
GPT-4.1-mini	DataZoneStandard	2.000	2,000,000
GPT-4.1-mini	GlobalStandard	5,000	5,000,000
GPT-4.1-mini	Standard	6,000	6,000,000
gpt-4.1-nano	DataZoneStandard	2.000	2,000,000
gpt-4.1-nano	GlobalStandard	5,000	5,000,000
GPT-4O	DataZoneStandard	300 / 10 segundos	300,000
gpt-4o-audio-preview	GlobalStandard	30000 / 10s	30,000,000
GPT-4O-mini	DataZoneStandard	10.000	1,000,000
GPT-4O-mini	GlobalStandard	20,000	2,000,000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-realtime-preview	GlobalStandard	36	6,000
GPT-5	DataZoneStandard	3,000	300,000
GPT-5	GlobalStandard	10.000	1,000,000
gpt-5-chat	GlobalStandard	1,000	1,000,000
Códice GPT-5	GlobalStandard	1,000	1,000,000
GPT-5-mini	DataZoneStandard	300	300,000
GPT-5-mini	GlobalStandard	1,000	1,000,000
GPT-5-nano	DataZoneStandard	2.000	2,000,000
GPT-5-nano	GlobalStandard	5,000	5,000,000
GPT-5-Pro	GlobalStandard	1,600	160,000
GPT-5.1	DataZoneStandard	3,000	300,000
GPT-5.1	GlobalStandard	10.000	1,000,000
gpt-5.1-chat	GlobalStandard	10.000	1,000,000
gpt-5.1-codex	DataZoneStandard	3,000	300,000
gpt-5.1-codex	GlobalStandard	1,000	1,000,000
gpt-5.1-codex-max	GlobalStandard	10.000	1,000,000
GPT-5.1-Codex-Mini	GlobalStandard	1,000	1,000,000
GPT-5.2	DataZoneStandard	3,000	300,000
GPT-5.2	GlobalStandard	10.000	1,000,000
gpt-5.2-chat	GlobalStandard	10.000	1,000,000
gpt-5.3-chat	GlobalStandard	1,000	1,000,000
GPT-5.2-codex	GlobalStandard	10.000	1,000,000
gpt-5.3-codex	GlobalStandard	10.000	1,000,000
GPT-5.4	DataZoneStandard	300	300,000
GPT-5.4	GlobalStandard	10.000	1,000,000
GPT-5.4-Pro	GlobalStandard	160	160,000
GPT-5.4-MINI	GlobalStandard	1,000	1,000,000
GPT-5.4-NANO	DataZoneStandard	2.000	2,000,000
GPT-5.4-NANO	GlobalStandard	5,000	5,000,000
GPT-5.5	DataZoneStandard	0	0
GPT-5.5	GlobalStandard	0	0
GPT-Audio	GlobalStandard	30000 / 10s	30,000,000
GPT-imagem-1	GlobalStandard	9	-
GPT-image-1-mini	GlobalStandard	12	-
gpt-image-1.5	DataZoneStandard	3	-
gpt-image-1.5	GlobalStandard	9	-
GPT-imagem-2	DataZoneStandard	3	-
GPT-imagem-2	GlobalStandard	9	-
GPT em tempo real	GlobalStandard	200	100,000
model-router	DataZoneStandard	150	150,000
o1	DataZoneStandard	100	600,000
o1	GlobalStandard	500	3,000,000
o3	DataZoneStandard	300	300,000
o3	GlobalStandard	1,000	1,000,000
O3-Pesquisa-Profunda	GlobalStandard	3,000	3,000,000
O3-mini	DataZoneStandard	200	2,000,000
O3-mini	GlobalStandard	500	5,000,000
O3-Pro	GlobalStandard	160	1,600,000
o4-mini	DataZoneStandard	300 / 10 segundos	300,000
o4-mini	GlobalStandard	1,000	1,000,000
texto-embedding-3-grande	DataZoneStandard	1,000	1,000,000
texto-embedding-3-grande	GlobalStandard	1000 / 10 segundos	1,000,000
Embutir texto-3-pequeno	DataZoneStandard	1,000	1,000,000
Embutir texto-3-pequeno	GlobalStandard	1000 / 10 segundos	1,000,000

Nível 2

Nome do Modelo	Tipo de Implantação	Pedidos por Minuto (RPM)	Tokens por Minuto (TPM)
Codex-mini	GlobalStandard	2.000	2,000,000
pré-visualização de utilização do computador	GlobalStandard	20,000	2,000,000
GPT-4.1	DataZoneStandard	1,000	1,000,000
GPT-4.1	GlobalStandard	3,000	3,000,000
GPT-4.1-mini	DataZoneStandard	6,000	6,000,000
GPT-4.1-mini	GlobalStandard	16,000	16,000,000
GPT-4.1-mini	Standard	12,000	12,000,000
gpt-4.1-nano	DataZoneStandard	6,000	6,000,000
gpt-4.1-nano	GlobalStandard	16,000	16,000,000
GPT-4O	DataZoneStandard	1000 / 10 segundos	1,000,000
gpt-4o-audio-preview	GlobalStandard	30000 / 10s	30,000,000
GPT-4O-mini	DataZoneStandard	30,000	3,000,000
GPT-4O-mini	GlobalStandard	90,000	9,000,000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-realtime-preview	GlobalStandard	36	6,000
GPT-5	DataZoneStandard	10.000	1,000,000
GPT-5	GlobalStandard	30,000	3,000,000
gpt-5-chat	GlobalStandard	2.000	2,000,000
Códice GPT-5	GlobalStandard	2.000	2,000,000
GPT-5-mini	DataZoneStandard	670	670,000
GPT-5-mini	GlobalStandard	2.000	2,000,000
GPT-5-nano	DataZoneStandard	6,000	6,000,000
GPT-5-nano	GlobalStandard	16,000	16,000,000
GPT-5-Pro	GlobalStandard	3,500	350,000
GPT-5.1	DataZoneStandard	6,700	670,000
GPT-5.1	GlobalStandard	20,000	2,000,000
gpt-5.1-chat	GlobalStandard	20,000	2,000,000
gpt-5.1-codex	DataZoneStandard	6,700	670,000
gpt-5.1-codex	GlobalStandard	2.000	2,000,000
gpt-5.1-codex-max	GlobalStandard	20,000	2,000,000
GPT-5.1-Codex-Mini	GlobalStandard	2.000	2,000,000
GPT-5.2	DataZoneStandard	6,700	670,000
GPT-5.2	GlobalStandard	20,000	2,000,000
gpt-5.2-chat	GlobalStandard	20,000	2,000,000
gpt-5.3-chat	GlobalStandard	2.000	2,000,000
GPT-5.2-codex	GlobalStandard	20,000	2,000,000
gpt-5.3-codex	GlobalStandard	20,000	2,000,000
GPT-5.4	DataZoneStandard	670	670,000
GPT-5.4	GlobalStandard	20,000	2,000,000
GPT-5.4-Pro	GlobalStandard	350	350,000
GPT-5.4-MINI	GlobalStandard	2.000	2,000,000
GPT-5.4-NANO	DataZoneStandard	6,000	6,000,000
GPT-5.4-NANO	GlobalStandard	16,000	16,000,000
GPT-5.5	DataZoneStandard	0	0
GPT-5.5	GlobalStandard	0	0
GPT-Audio	GlobalStandard	30000 / 10s	30,000,000
GPT-imagem-1	GlobalStandard	18	-
GPT-image-1-mini	GlobalStandard	27	-
gpt-image-1.5	DataZoneStandard	5	-
gpt-image-1.5	GlobalStandard	15	-
GPT-imagem-2	DataZoneStandard	5	-
GPT-imagem-2	GlobalStandard	15	-
GPT em tempo real	GlobalStandard	200	100,000
model-router	DataZoneStandard	190	190,000
o1	DataZoneStandard	225	1,350,000
o1	GlobalStandard	1,000	6,000,000
o3	DataZoneStandard	670	670,000
o3	GlobalStandard	2.000	2,000,000
O3-Pesquisa-Profunda	GlobalStandard	7,000	7,000,000
O3-mini	DataZoneStandard	350	3,500,000
O3-mini	GlobalStandard	1,000	10 000 000
O3-Pro	GlobalStandard	350	3,500,000
o4-mini	DataZoneStandard	670 unidades em 10 segundos	670,000
o4-mini	GlobalStandard	2.000	2,000,000
texto-embedding-3-grande	DataZoneStandard	2.000	2,000,000
texto-embedding-3-grande	GlobalStandard	Anos 2000 / década de 10	2,000,000
Embutir texto-3-pequeno	DataZoneStandard	2.000	2,000,000
Embutir texto-3-pequeno	GlobalStandard	Anos 2000 / década de 10	2,000,000

Nível 3

Nome do Modelo	Tipo de Implantação	Pedidos por Minuto (RPM)	Tokens por Minuto (TPM)
Codex-mini	GlobalStandard	4,000	4 000 000
pré-visualização de utilização do computador	GlobalStandard	70,000	7,000,000
GPT-4.1	DataZoneStandard	3,000	3,000,000
GPT-4.1	GlobalStandard	9,000	9,000,000
GPT-4.1-mini	DataZoneStandard	16,000	16,000,000
GPT-4.1-mini	GlobalStandard	46,000	46,000,000
GPT-4.1-mini	Standard	30,000	30,000,000
gpt-4.1-nano	DataZoneStandard	16,000	16,000,000
gpt-4.1-nano	GlobalStandard	46,000	46,000,000
GPT-4O	DataZoneStandard	3000 / 10 seg	3,000,000
gpt-4o-audio-preview	GlobalStandard	30000 / 10s	30,000,000
GPT-4O-mini	DataZoneStandard	70,000	7,000,000
GPT-4O-mini	GlobalStandard	330,000	33.000.000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-realtime-preview	GlobalStandard	36	6,000
GPT-5	DataZoneStandard	30,000	3,000,000
GPT-5	GlobalStandard	90,000	9,000,000
gpt-5-chat	GlobalStandard	3,000	3,000,000
Códice GPT-5	GlobalStandard	4,000	4 000 000
GPT-5-mini	DataZoneStandard	1,000	1,000,000
GPT-5-mini	GlobalStandard	4,000	4 000 000
GPT-5-nano	DataZoneStandard	16,000	16,000,000
GPT-5-nano	GlobalStandard	46,000	46,000,000
GPT-5-Pro	GlobalStandard	7,000	700,000
GPT-5.1	DataZoneStandard	10.000	1,000,000
GPT-5.1	GlobalStandard	40,000	4 000 000
gpt-5.1-chat	GlobalStandard	30,000	3,000,000
gpt-5.1-codex	DataZoneStandard	10.000	1,000,000
gpt-5.1-codex	GlobalStandard	4,000	4 000 000
gpt-5.1-codex-max	GlobalStandard	40,000	4 000 000
GPT-5.1-Codex-Mini	GlobalStandard	4,000	4 000 000
GPT-5.2	DataZoneStandard	10.000	1,000,000
GPT-5.2	GlobalStandard	40,000	4 000 000
gpt-5.2-chat	GlobalStandard	30,000	3,000,000
gpt-5.3-chat	GlobalStandard	3,000	3,000,000
GPT-5.2-codex	GlobalStandard	40,000	4 000 000
gpt-5.3-codex	GlobalStandard	40,000	4 000 000
GPT-5.4	DataZoneStandard	1,000	1,000,000
GPT-5.4	GlobalStandard	40,000	4 000 000
GPT-5.4-Pro	GlobalStandard	700	700,000
GPT-5.4-MINI	GlobalStandard	4,000	4 000 000
GPT-5.4-NANO	DataZoneStandard	16,000	16,000,000
GPT-5.4-NANO	GlobalStandard	46,000	46,000,000
GPT-5.5	DataZoneStandard	0	0
GPT-5.5	GlobalStandard	0	0
GPT-Audio	GlobalStandard	30000 / 10s	30,000,000
GPT-imagem-1	GlobalStandard	30	-
GPT-image-1-mini	GlobalStandard	54	-
gpt-image-1.5	DataZoneStandard	10	-
gpt-image-1.5	GlobalStandard	30	-
GPT-imagem-2	DataZoneStandard	10	-
GPT-imagem-2	GlobalStandard	30	-
GPT em tempo real	GlobalStandard	200	100,000
model-router	DataZoneStandard	235	235,000
o1	DataZoneStandard	450	2,700,000
o1	GlobalStandard	2.000	12,000,000
o3	DataZoneStandard	1,000	1,000,000
o3	GlobalStandard	4,000	4 000 000
O3-Pesquisa-Profunda	GlobalStandard	13,000	13.000.000
O3-mini	DataZoneStandard	900	9,000,000
O3-mini	GlobalStandard	2.000	20.000.000
O3-Pro	GlobalStandard	715	7,150,000
o4-mini	DataZoneStandard	1000 / 10 segundos	1,000,000
o4-mini	GlobalStandard	4,000	4 000 000
texto-embedding-3-grande	DataZoneStandard	4,000	4 000 000
texto-embedding-3-grande	GlobalStandard	4000 / 10s	4 000 000
Embutir texto-3-pequeno	DataZoneStandard	4,000	4 000 000
Embutir texto-3-pequeno	GlobalStandard	4000 / 10s	4 000 000

Nível 4

Nome do Modelo	Tipo de Implantação	Pedidos por Minuto (RPM)	Tokens por Minuto (TPM)
Codex-mini	GlobalStandard	7,000	7,000,000
pré-visualização de utilização do computador	GlobalStandard	160,000	16,000,000
GPT-4.1	DataZoneStandard	6,000	6,000,000
GPT-4.1	GlobalStandard	18,000	18.000.000
GPT-4.1-mini	DataZoneStandard	31,000	31,000,000
GPT-4.1-mini	GlobalStandard	90,000	90,000,000
GPT-4.1-mini	Standard	75,000	75,000,000
gpt-4.1-nano	DataZoneStandard	31,000	31,000,000
gpt-4.1-nano	GlobalStandard	90,000	90,000,000
GPT-4O	DataZoneStandard	6000 / 10s	6,000,000
gpt-4o-audio-preview	GlobalStandard	30000 / 10s	30,000,000
GPT-4O-mini	DataZoneStandard	130,000	13.000.000
GPT-4O-mini	GlobalStandard	780,000	78,000,000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-realtime-preview	GlobalStandard	36	6,000
GPT-5	DataZoneStandard	60,000	6,000,000
GPT-5	GlobalStandard	180,000	18.000.000
gpt-5-chat	GlobalStandard	4,000	4 000 000
Códice GPT-5	GlobalStandard	7,000	7,000,000
GPT-5-mini	DataZoneStandard	2.000	2,000,000
GPT-5-mini	GlobalStandard	7,000	7,000,000
GPT-5-nano	DataZoneStandard	31,000	31,000,000
GPT-5-nano	GlobalStandard	90,000	90,000,000
GPT-5-Pro	GlobalStandard	11,500	1,150,000
GPT-5.1	DataZoneStandard	20,000	2,000,000
GPT-5.1	GlobalStandard	70,000	7,000,000
gpt-5.1-chat	GlobalStandard	40,000	4 000 000
gpt-5.1-codex	DataZoneStandard	20,000	2,000,000
gpt-5.1-codex	GlobalStandard	7,000	7,000,000
gpt-5.1-codex-max	GlobalStandard	70,000	7,000,000
GPT-5.1-Codex-Mini	GlobalStandard	7,000	7,000,000
GPT-5.2	DataZoneStandard	20,000	2,000,000
GPT-5.2	GlobalStandard	70,000	7,000,000
gpt-5.2-chat	GlobalStandard	40,000	4 000 000
gpt-5.3-chat	GlobalStandard	4,000	4 000 000
GPT-5.2-codex	GlobalStandard	70,000	7,000,000
gpt-5.3-codex	GlobalStandard	70,000	7,000,000
GPT-5.4	DataZoneStandard	2.000	2,000,000
GPT-5.4	GlobalStandard	70,000	7,000,000
GPT-5.4-Pro	GlobalStandard	1,150	1,150,000
GPT-5.4-MINI	GlobalStandard	7,000	7,000,000
GPT-5.4-NANO	DataZoneStandard	31,000	31,000,000
GPT-5.4-NANO	GlobalStandard	90,000	90,000,000
GPT-5.5	DataZoneStandard	0	0
GPT-5.5	GlobalStandard	0	0
GPT-Audio	GlobalStandard	30000 / 10s	30,000,000
GPT-imagem-1	GlobalStandard	45	-
GPT-image-1-mini	GlobalStandard	84	-
gpt-image-1.5	DataZoneStandard	15	-
gpt-image-1.5	GlobalStandard	45	-
GPT-imagem-2	DataZoneStandard	15	-
GPT-imagem-2	GlobalStandard	45	-
GPT em tempo real	GlobalStandard	200	100,000
model-router	DataZoneStandard	270	270,000
o1	DataZoneStandard	700	4,200,000
o1	GlobalStandard	4,000	24,000,000
o3	DataZoneStandard	2.000	2,000,000
o3	GlobalStandard	7,000	7,000,000
O3-Pesquisa-Profunda	GlobalStandard	21,000	21,000,000
O3-mini	DataZoneStandard	1,000	10 000 000
O3-mini	GlobalStandard	4,000	40.000.000
O3-Pro	GlobalStandard	1,150	11,500,000
o4-mini	DataZoneStandard	Anos 2000 / década de 10	2,000,000
o4-mini	GlobalStandard	7,000	7,000,000
texto-embedding-3-grande	DataZoneStandard	7,000	7,000,000
texto-embedding-3-grande	GlobalStandard	7000 / 10s	7,000,000
Embutir texto-3-pequeno	DataZoneStandard	7,000	7,000,000
Embutir texto-3-pequeno	GlobalStandard	7000 / 10s	7,000,000

Nível 5

Nome do Modelo	Tipo de Implantação	Pedidos por Minuto (RPM)	Tokens por Minuto (TPM)
Codex-mini	GlobalStandard	10.000	10 000 000
pré-visualização de utilização do computador	GlobalStandard	300,000	30,000,000
GPT-4.1	DataZoneStandard	10.000	10 000 000
GPT-4.1	GlobalStandard	30,000	30,000,000
GPT-4.1-mini	DataZoneStandard	50,000	50.000.000
GPT-4.1-mini	GlobalStandard	150,000	150,000,000
GPT-4.1-mini	Standard	150,000	150,000,000
gpt-4.1-nano	DataZoneStandard	50,000	50.000.000
gpt-4.1-nano	GlobalStandard	150,000	150,000,000
GPT-4O	DataZoneStandard	10.000 / 10 segundos	10 000 000
gpt-4o-audio-preview	GlobalStandard	30000 / 10s	30,000,000
GPT-4O-mini	DataZoneStandard	200,000	20.000.000
GPT-4O-mini	GlobalStandard	1,500,000	150,000,000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-realtime-preview	GlobalStandard	36	6,000
GPT-5	DataZoneStandard	100,000	10 000 000
GPT-5	GlobalStandard	300,000	30,000,000
gpt-5-chat	GlobalStandard	5,000	5,000,000
Códice GPT-5	GlobalStandard	10.000	10 000 000
GPT-5-mini	DataZoneStandard	3,000	3,000,000
GPT-5-mini	GlobalStandard	10.000	10 000 000
GPT-5-nano	DataZoneStandard	50,000	50.000.000
GPT-5-nano	GlobalStandard	150,000	150,000,000
GPT-5-Pro	GlobalStandard	16,000	1,600,000
GPT-5.1	DataZoneStandard	30,000	3,000,000
GPT-5.1	GlobalStandard	100,000	10 000 000
gpt-5.1-chat	GlobalStandard	50,000	5,000,000
gpt-5.1-codex	DataZoneStandard	30,000	3,000,000
gpt-5.1-codex	GlobalStandard	10.000	10 000 000
gpt-5.1-codex-max	GlobalStandard	100,000	10 000 000
GPT-5.1-Codex-Mini	GlobalStandard	10.000	10 000 000
GPT-5.2	DataZoneStandard	30,000	3,000,000
GPT-5.2	GlobalStandard	100,000	10 000 000
gpt-5.2-chat	GlobalStandard	50,000	5,000,000
gpt-5.3-chat	GlobalStandard	5,000	5,000,000
GPT-5.2-codex	GlobalStandard	100,000	10 000 000
gpt-5.3-codex	GlobalStandard	100,000	10 000 000
GPT-5.4	DataZoneStandard	3,000	3,000,000
GPT-5.4	GlobalStandard	100,000	10 000 000
GPT-5.4-Pro	GlobalStandard	1,600	1,600,000
GPT-5.4-MINI	GlobalStandard	10.000	10 000 000
GPT-5.4-NANO	DataZoneStandard	50,000	50.000.000
GPT-5.4-NANO	GlobalStandard	150,000	150,000,000
GPT-5.5	DataZoneStandard	3,000	3,000,000
GPT-5.5	GlobalStandard	10.000	10 000 000
GPT-Audio	GlobalStandard	30000 / 10s	30,000,000
GPT-imagem-1	GlobalStandard	60	-
GPT-image-1-mini	GlobalStandard	120	-
gpt-image-1.5	DataZoneStandard	20	-
gpt-image-1.5	GlobalStandard	60	-
GPT-imagem-2	DataZoneStandard	20	-
GPT-imagem-2	GlobalStandard	60	-
GPT em tempo real	GlobalStandard	200	100,000
model-router	DataZoneStandard	300	300,000
o1	DataZoneStandard	1,000	6,000,000
o1	GlobalStandard	5,000	30,000,000
o3	DataZoneStandard	3,000	3,000,000
o3	GlobalStandard	10.000	10 000 000
O3-Pesquisa-Profunda	GlobalStandard	30,000	30,000,000
O3-mini	DataZoneStandard	2.000	20.000.000
O3-mini	GlobalStandard	5,000	50.000.000
O3-Pro	GlobalStandard	1,600	16,000,000
o4-mini	DataZoneStandard	3000 / 10 seg	3,000,000
o4-mini	GlobalStandard	10.000	10 000 000
texto-embedding-3-grande	DataZoneStandard	10.000	10 000 000
texto-embedding-3-grande	GlobalStandard	10.000 / 10 segundos	10 000 000
Embutir texto-3-pequeno	DataZoneStandard	10.000	10 000 000
Embutir texto-3-pequeno	GlobalStandard	10.000 / 10 segundos	10 000 000

Nível 6

Nome do Modelo	Tipo de Implantação	Pedidos por Minuto (RPM)	Tokens por Minuto (TPM)
Codex-mini	GlobalStandard	15,000	15 000 000
pré-visualização de utilização do computador	GlobalStandard	450 000	45,000,000
GPT-4.1	DataZoneStandard	15,000	15 000 000
GPT-4.1	GlobalStandard	45,000	45,000,000
GPT-4.1-mini	DataZoneStandard	75,000	75,000,000
GPT-4.1-mini	GlobalStandard	225,000	225,000,000
GPT-4.1-mini	Standard	225,000	225,000,000
gpt-4.1-nano	DataZoneStandard	75,000	75,000,000
gpt-4.1-nano	GlobalStandard	225,000	225,000,000
GPT-4O	DataZoneStandard	15000 / 10 segundos	15 000 000
gpt-4o-audio-preview	GlobalStandard	45000 / 10 segundos	45,000,000
GPT-4O-mini	DataZoneStandard	300,000	30,000,000
GPT-4O-mini	GlobalStandard	2,250,000	225,000,000
gpt-4o-mini-audio-preview	GlobalStandard	45000 / 10 segundos	45,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	54	9,000
gpt-4o-realtime-preview	GlobalStandard	54	9,000
GPT-5	DataZoneStandard	150,000	15 000 000
GPT-5	GlobalStandard	450 000	45,000,000
gpt-5-chat	GlobalStandard	8,000	8,000,000
Códice GPT-5	GlobalStandard	15,000	15 000 000
GPT-5-mini	DataZoneStandard	4,000	4 000 000
GPT-5-mini	GlobalStandard	15,000	15 000 000
GPT-5-nano	DataZoneStandard	75,000	75,000,000
GPT-5-nano	GlobalStandard	225,000	225,000,000
GPT-5-Pro	GlobalStandard	24,000	2,400,000
GPT-5.1	DataZoneStandard	40,000	4 000 000
GPT-5.1	GlobalStandard	150,000	15 000 000
gpt-5.1-chat	GlobalStandard	80,000	8,000,000
gpt-5.1-codex	DataZoneStandard	40,000	4 000 000
gpt-5.1-codex	GlobalStandard	15,000	15 000 000
gpt-5.1-codex-max	GlobalStandard	150,000	15 000 000
GPT-5.1-Codex-Mini	GlobalStandard	15,000	15 000 000
GPT-5.2	DataZoneStandard	40,000	4 000 000
GPT-5.2	GlobalStandard	150,000	15 000 000
gpt-5.2-chat	GlobalStandard	80,000	8,000,000
gpt-5.3-chat	GlobalStandard	8,000	8,000,000
GPT-5.2-codex	GlobalStandard	150,000	15 000 000
gpt-5.3-codex	GlobalStandard	150,000	15 000 000
GPT-5.4	DataZoneStandard	4,000	4 000 000
GPT-5.4	GlobalStandard	150,000	15 000 000
GPT-5.4-Pro	GlobalStandard	2,400	2,400,000
GPT-5.4-MINI	GlobalStandard	15,000	15 000 000
GPT-5.4-NANO	DataZoneStandard	75,000	75,000,000
GPT-5.4-NANO	GlobalStandard	225,000	225,000,000
GPT-5.5	DataZoneStandard	4,000	4 000 000
GPT-5.5	GlobalStandard	15,000	15 000 000
GPT-Audio	GlobalStandard	45000 / 10 segundos	45,000,000
GPT-imagem-1	GlobalStandard	90	-
GPT-image-1-mini	GlobalStandard	180	-
gpt-image-1.5	DataZoneStandard	30	-
gpt-image-1.5	GlobalStandard	90	-
GPT-imagem-2	DataZoneStandard	30	-
GPT-imagem-2	GlobalStandard	90	-
GPT em tempo real	GlobalStandard	300	150,000
model-router	DataZoneStandard	450	450 000
o1	DataZoneStandard	2.000	12,000,000
o1	GlobalStandard	8,000	48,000,000
o3	DataZoneStandard	4,000	4 000 000
o3	GlobalStandard	15,000	15 000 000
O3-Pesquisa-Profunda	GlobalStandard	45,000	45,000,000
O3-mini	DataZoneStandard	3,000	30,000,000
O3-mini	GlobalStandard	8,000	80,000,000
O3-Pro	GlobalStandard	2,400	24,000,000
o4-mini	DataZoneStandard	4000 / 10s	4 000 000
o4-mini	GlobalStandard	15,000	15 000 000
texto-embedding-3-grande	DataZoneStandard	15,000	15 000 000
texto-embedding-3-grande	GlobalStandard	15000 / 10 segundos	15 000 000
Embutir texto-3-pequeno	DataZoneStandard	15,000	15 000 000
Embutir texto-3-pequeno	GlobalStandard	15000 / 10 segundos	15 000 000

Quotas e limites de referência

A secção seguinte fornece-lhe um guia rápido sobre as quotas e limites padrão que se aplicam ao Azure OpenAI:

Nome do limite	Valor limite
Recursos do Azure OpenAI por região, por assinatura do Azure	30.
Limites padrão de quota GPT-imagem-1	9 pedidos por minuto
Limites de quota padrão do GPT-image-1-mini	12 pedidos por minuto
Limites padrão de quota GPT-imagem-1.5	9 pedidos por minuto
Limites padrão de cota GPT-imagem-2	9 pedidos por minuto
Limites padrão das quotas de Sora	60 pedidos por minuto.
Limites padrão de quotas do Sora 2	2 pedidos de trabalho¹ por minuto
Limites de quotas padrão da API de áudio para voz em texto	3 pedidos por minuto.
Máximo de tokens de prompt por solicitação	Varia consoante o modelo. Para mais informações, consulte Azure Modelos OpenAI.
Implementações padrão máximas por recurso	32.
Implementações máximas de modelos finamente ajustados	10.
Número total de empregos de formação por recurso	100.
Máximo de tarefas de treino em execuções simultâneas por cada recurso	Formação padrão e global: 3; Formação de programadores: 5
Maior número de empregos de formação em fila	20.
Máximo de ficheiros por recurso (aperfeiçoamento)	100.
Tamanho total de todos os ficheiros por recurso (ajuste fino)	1 GB.
Tempo máximo da tarefa de treino (a tarefa falha se o tempo for excedido)	720 horas.
Tamanho máximo do trabalho de treino `(tokens in training file) x (# of epochs)`	2 mil milhões.
Tamanho máximo de todos os ficheiros por upload (Azure OpenAI nos seus dados)	16 MB.
Número máximo de entradas num array com `/embeddings`	2,048.
Número máximo de `/chat/completions` mensagens	2,048.
Número máximo de `/chat/completions` funções	128.
Número máximo de `/chat/completions` ferramentas	128.
Número máximo de unidades de débito provisionadas por implantação	100,000.
Ficheiros máximos por assistente ou thread	10.000 ao usar a API ou o portal Microsoft Foundry.
Tamanho máximo do ficheiro para assistentes e afinação	512 MB através da API 200 MB através do portal Foundry.
Pedidos máximos de upload de ficheiros por recurso	30 pedidos por segundo.
Tamanho máximo para todos os ficheiros carregados para assistentes	200 GB.
Limite de tokens dos assistentes	Limite de 2.000.000 de tokens.
`GPT-4o` e `GPT-4.1` número máximo de imagens por pedido (número de imagens no array de mensagens ou histórico de conversas)	50.
`GPT-4 vision-preview` e `GPT-4 turbo-2024-04-09` tokens máximos padrão	16. Aumente o valor do `max_tokens` parâmetro para evitar respostas truncadas. `GPT-4o` os tokens máximos predefinidos são 4.096.
Número máximo de cabeçalhos personalizados em pedidos API²	10.
Limite de caracteres da mensagem	1,048,576.
Tamanho da mensagem para ficheiros de áudio	20 MB.

¹ A quota de 2 RPM do Sora só conta pedidos de trabalho por vídeo. Outros tipos de pedidos não estão sujeitos a limitação de taxa.

² As nossas APIs atuais permitem até 10 cabeçalhos personalizados, que são passados pelo pipeline e devolvidos. Alguns clientes agora ultrapassam este número de cabeçalhos, o que resulta em erros HTTP 431. Não há solução para este erro, a não ser reduzir o volume do cabeçalho. Nas futuras versões da API, não passaremos pelos cabeçalhos personalizados. Recomendamos que os clientes não dependam de cabeçalhos personalizados em futuras arquiteturas de sistema.

Nota

Os limites das quotas estão sujeitos a alterações.

Limites de taxa para model-router

Modelo	Tipo de Implantação	RPM padrão	TPM padrão	Enterprise e MCA-E RPM	Enterprise e MCA-E TPM
`model-router` `(2025-11-18)`	DataZoneStandard	150	150,000	300	300,000
`model-router` `(2025-11-18)`	GlobalStandard	250	250,000	400	400,000

Limites em lote

Nome do limite	Valor limite
Ficheiros de entrada por lote máximo - (sem expiração)	500
Ficheiros de entrada de lote máximo - (data de expiração definida)	10.000
Tamanho máximo do ficheiro de entrada	200 MB
Tamanho máximo do ficheiro de entrada - Traga o seu próprio armazenamento (BYOS)	1 GB
Pedidos máximos por ficheiro	100,000

Nota

Os limites de ficheiros em lote não se aplicam a ficheiros de saída (por exemplo, result.jsonl, e error.jsonl). Para remover os limites dos ficheiros de entrada por lote, use Batch com Armazenamento de Blobs do Azure.

Quota de lote

A tabela mostra o limite da quota de lote. Os valores de quota para o batch global são representados em termos de tokens em fila. Quando submete um ficheiro para processamento em lote, o número de tokens no ficheiro é contado. Até que o batch job atinja um estado terminal, esses tokens contam para o limite total de tokens em fila.

Lote global

Modelo	Enterprise e MCA-E	Padrão	Subscrições mensais baseadas em cartão de crédito	Subscrições MSDN	Azure for Students, testes gratuitos
`gpt-4.1`	5B	200M	50M	90K	N/A
`gpt-4.1 mini`	15B	1B	50M	90K	N/A
`gpt-4.1-nano`	15B	1B	50M	90K	N/A
`gpt-4o`	5B	200M	50M	90K	N/A
`gpt-4o-mini`	15B	1B	50M	90K	N/A
`gpt-4-turbo`	300M	80M	40M	90K	N/A
`gpt-4`	150M	30 milhões	5M	100K	N/A
`o3-mini`	15B	1B	50M	90K	N/A
`o4-mini`	15B	1B	50M	90K	N/A
`gpt-5`	5B	200M	50M	90K	N/A
`gpt-5.1`	5B	200M	50M	90K	N/A

B = biliões | M = milhão | K = mil

Lote de área de dados

Modelo	Enterprise e MCA-E	Padrão	Subscrições mensais baseadas em cartão de crédito	Subscrições MSDN	Azure for Students, testes gratuitos
`gpt-4.1`	500M	30 milhões	30 milhões	90K	N/A
`gpt-4.1-mini`	1,5B	100M	50M	90K	N/A
`gpt-4o`	500M	30 milhões	30 milhões	90K	N/A
`gpt-4o-mini`	1,5B	100M	50M	90K	N/A
`o3-mini`	1,5B	100M	50M	90K	N/A
`gpt-5`	5B	200M	50M	90K	N/A
`gpt-5.1`	5B	200M	50M	90K	N/A

GPT-OSS

Modelo	Tokens por minuto (TPM)	Pedidos por minuto (RPM)
`gpt-oss-120b`	5 milhões	5 K

Níveis de utilização

As implementações de Global Standard utilizam a infraestrutura global do Azure. Eles encaminham dinamicamente o tráfego dos clientes para o centro de dados com a melhor disponibilidade para os pedidos de inferência do cliente. De forma semelhante, as implementações do Data Zone Standard permitem usar a infraestrutura global do Azure para encaminhar dinamicamente o tráfego para o data center dentro da zona de dados definida pela Microsoft, com a melhor disponibilidade para cada pedido. Esta prática permite uma latência mais consistente para clientes com níveis baixos a médios de tráfego. Clientes com níveis elevados de utilização sustentada podem observar maior variabilidade na latência de resposta.

Os níveis de utilização do Azure OpenAI foram concebidos para proporcionar desempenho consistente à maioria dos clientes com níveis baixos a médios de tráfego. Cada nível de utilização define a taxa de throughput máxima (tokens por minuto) que se pode esperar com latência previsível. Quando o seu uso se mantém dentro do seu nível atribuído, a latência mantém-se estável e os tempos de resposta são consistentes.

O que acontece se ultrapassares o teu nível de utilização?

Se a capacidade do seu pedido exceder o seu nível de uso — especialmente durante períodos de alta demanda — a sua latência de resposta pode aumentar significativamente.
A latência pode variar e, em alguns casos, pode ser mais do que o dobro do que ao operar dentro do seu escalão de utilização.
Esta variabilidade é mais notória em clientes com um uso contínuo elevado ou padrões de tráfego em rajadas.

Ações recomendadas se excederes o teu nível de utilização

Se encontrar erros 429 ou notar um aumento da variabilidade da latência, aqui está o que deve fazer:

Solicite um aumento de quota: visite o portal do Azure para solicitar uma quota maior para a sua subscrição.
Considere atualizar para uma oferta premium (PTU): para cargas de trabalho críticas em termos de latência ou com alto volume, atualize para Unidades de Taxa de Transferência Provisionadas (PTU). A PTU oferece recursos dedicados, capacidade garantida e latência previsível — mesmo em larga escala. Esta é a melhor escolha para aplicações críticas à missão que exigem desempenho consistente.
Monitorize a sua utilização: reveja regularmente as métricas de utilização no portal do Azure para garantir que está a operar dentro dos seus limites de nível. Ajusta a tua carga de trabalho ou estratégia de implementação conforme necessário.

Pode receber respostas 429 (Pedidos a Mais) mesmo quando as métricas de utilização de tokens aparecem abaixo da sua quota.

Isto pode ocorrer nos seguintes cenários:

Pedidos rejeitados devido a limites de comprimento de entrada ou contexto (HTTP 400). Estes pedidos não são faturados e podem não aparecer em métricas de utilização de tokens, mas ainda assim podem contar para a limitação de taxas.
Pedidos avaliados com base no potencial uso de tokens (por exemplo, max_tokens), mesmo que não sejam gerados tokens em última análise.
Comportamento distribuído de limitação de taxas, onde a aplicação pode não ser perfeitamente precisa ou imediatamente refletida em métricas agregadas.

O limite de utilização determina o nível de utilização acima do qual os clientes podem observar maior variabilidade na latência de resposta. O uso do cliente é definido por modelo. É o número total de tokens consumidos em todas as implementações, em todas as subscrições, em todas as regiões para um dado inquilino.

Nota

Os níveis de utilização aplicam-se apenas aos tipos de implementação Standard, Data Zone Standard e Global Standard. Os níveis de utilização não se aplicam a implementações globais de processamento em lote e throughput provisionado.

Norma Global, Padrão de Zona de Dados e Norma

Modelo	Níveis de utilização por mês
`gpt-5`	32 mil milhões de tokens
`gpt-5-mini`	160 mil milhões de tokens
`gpt-5-nano`	800 mil milhões de tokens
`gpt-5-chat`	32 mil milhões de tokens
`gpt-4` + `gpt-4-32k` (todas as versões)	6 mil milhões de tokens
`gpt-4o`	12 mil milhões de tokens
`gpt-4o-mini`	85 mil milhões de tokens
`o3-mini`	50 mil milhões de tokens
`o1`	4 mil milhões de tokens
`o4-mini`	50 mil milhões de tokens
`o3`	5 mil milhões de tokens
`gpt-4.1`	30 mil milhões de tokens
`gpt-4.1-mini`	150 mil milhões de tokens
`gpt-4.1-nano`	550 mil milhões de tokens

Melhores práticas gerais para manter os limites de taxa

Para minimizar problemas relacionados com os limites de taxa, é aconselhável utilizar as seguintes técnicas:

Implementa lógica de nova tentativa na sua aplicação.
Evite mudanças bruscas na carga de trabalho. Aumenta a carga de trabalho gradualmente.
Testa diferentes padrões de aumento de carga.
Aumente a quota atribuída à sua missão. Transferir quota de outra missão, se necessário.

Aumentos das quotas de pedidos

Submeta o formulário de pedido de aumento de quota para solicitar aumentos de quota para modelos Foundry vendidos diretamente pela Azure, modelos Azure OpenAI e Anthropic. Exceto para Anthropic modelos, Modelos de parceiros e comunidade não suportam aumentos de quotas.

Os pedidos de aumento de quotas são processados pela ordem em que são recebidos, e a prioridade vai para os clientes que utilizam ativamente a sua quota de alocação existente. Pedidos que não cumpram esta condição podem ser recusados.

Limites regionais de capacidade de quotas

Pode consultar a disponibilidade de quotas por região para a sua subscrição no portal da Foundry.

Para visualizar a capacidade de quota por região para um modelo ou versão específica, pode consultar a API de capacidade da sua subscrição. Fornece um subscriptionId, model_name e model_version e à API devolve a capacidade disponível para esse modelo em todas as regiões e tipos de implementação da sua subscrição.

Nota

Atualmente, tanto o portal Foundry como a API de capacidade retornam informação de quotas/capacidade para modelos que estão retirados e já não estão disponíveis.

Consulte a referência da API.

Antes de apresentares o exemplo:

Dependências de instalação: pip install azure-identity requests
Inicie sessão com uma identidade do Azure que consiga ler a capacidade de modelo da subscrição.

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

Explore como gerir quotas para as suas implementações Azure OpenAI.
Saiba mais sobre os modelos subjacentes que alimentam Azure OpenAI.

Comentários

Esta página foi útil?

Last updated on 2026-05-01

Azure OpenAI nos modelos Microsoft Foundry: quotas e limites

Âmbito da quota

Alocação de quotas regionais

Escalões de quotas

O que está a mudar para mim?

Como é que um cliente se move automaticamente de um nível para outro, por exemplo, quais são os critérios para a mudança de nível?

Posso optar por não receber upgrades automáticos?

Posso pedir mais quota?

Como posso verificar o nível de quota da minha subscrição?

Referência de quota por nível

Nível 1

Quotas e limites de referência

Limites de taxa para model-router

Limites em lote

Quota de lote

Lote global

Lote de área de dados

GPT-OSS

Níveis de utilização

O que acontece se ultrapassares o teu nível de utilização?

Ações recomendadas se excederes o teu nível de utilização

Norma Global, Padrão de Zona de Dados e Norma

Melhores práticas gerais para manter os limites de taxa

Aumentos das quotas de pedidos

Limites regionais de capacidade de quotas

Conteúdo relacionado

Comentários

Recursos adicionais

Como é que um cliente se move automaticamente de um nível para outro, por exemplo, quais são os critérios para a mudança de nível?