Azure OpenAI en Microsoft Foundry Models cuotas y límites (clásico)

Visualización actual:Versión - del portal de Foundry (clásico)Cambio a la versión del nuevo portal de Foundry

Nota

Los vínculos de este artículo pueden abrir contenido en la nueva documentación de Microsoft Foundry en lugar de la documentación de Foundry (clásico) que está viendo ahora.

Este artículo contiene una referencia rápida y una descripción detallada de las cuotas y límites de Azure OpenAI.

Ámbito de cuota

Las cuotas y los límites no se aplican en el nivel de inquilino. En su lugar, el nivel más alto de restricciones de cuota se limita al nivel de suscripción Azure.

Asignación de cuota regional

Los tokens por minuto (TPM) y las solicitudes por minuto (RPM) se definen por región, por suscripción y por modelo o tipo de implementación.

Por ejemplo, si el modelo gpt-4.1 Global Standard aparece con una cuota de 5 millones de TPM y 5 000 RPM, a continuación, each region donde ese model o tipo de implementación está disponible tiene su propio grupo de cuotas dedicado de esa cantidad para each de las suscripciones de Azure. Dentro de una sola suscripción de Azure, es posible usar una mayor cantidad de cuota total de TPM y RPM para un modelo y tipo de implementación determinado, siempre y cuando tenga recursos e implementaciones de modelos repartidos entre varias regiones.

Niveles de cuota

Estamos introduciendo niveles de cuota para mejorar la experiencia de los modelos de Foundry y reducir la fricción a medida que se escalan las cargas de trabajo. Las cuotas ahora aumentarán automáticamente con el uso, lo que ayuda a evitar errores de límite de velocidad al mismo tiempo que crean un entorno más justo para todos los usuarios. Siete niveles estarán disponibles: Nivel gratis y Niveles 1 a 6, con el nivel 6 que ofrece las cuotas más altas. El nivel asignado inicial de un cliente se basa en su uso actual de ese modelo y su relación actual con Microsoft, como el estado contrato Enterprise (EA o MCA-E). 

¿Qué me está cambiando?

Anteriormente, Foundry solo ofrecía niveles de cuota Predeterminado y Enterprise para el tipo de oferta de pago por uso, con una gran diferencia entre cada nivel y un proceso más largo para solicitar aumentos. Con los niveles de cuota, a todos los usuarios se les asigna un nivel con cuotas iguales o superiores a sus niveles anteriores. Los aumentos de cuota aprobados anteriormente se conservan y no se reducen. A medida que aumenta el uso, Foundry aumenta automáticamente las cuotas moviendo los usuarios a niveles superiores y se puede solicitar cuota adicional a través del formulario de cuota.

¿Cómo se moverá automáticamente un cliente de un nivel a otro, por ejemplo, cuáles son los criterios de cambio de nivel? 

Las actualizaciones automáticas de niveles se basan principalmente en las tendencias de consumo de clientes en foundry Models a lo largo del tiempo. Si el uso de un cliente aumenta de modo que su nivel de cuota actual limita su capacidad de usar Foundry Models, el sistema actualizará automáticamente al cliente al siguiente nivel superior. También se tiene en cuenta la relación de un cliente con Microsoft. A los clientes con relaciones empresariales (incluidos EA y MCA-E) con Microsoft se les asignan niveles de cuota superiores. Además, Microsoft también considerará el historial de pagos de un cliente para determinar la idoneidad de las actualizaciones automáticas. 

¿Puedo rechazar las actualizaciones automáticas?

Sí, puede no participar en las actualizaciones automáticas y permanecerá en el nivel actual independientemente de los cambios en el consumo. Reconocemos que algunos de nuestros clientes usan cuota para administrar su facturación. Esto no es el procedimiento recomendado Azure, sin embargo, entendemos que si el sistema está configurado de esa manera no queremos interrumpirlo. Puede obtener más información sobre la administración de facturación y los procedimientos recomendados aquí: Cost Management.

Para no participar, puede establecer la marca siguiente NoAutoUpgradeen :

curl -X PATCH \
  "https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
  -H "Content-Type: application/json" \
  -d '{
    "properties": {
      "tierUpgradePolicy": "NoAutoUpgrade"
    }
  }'

Nota

La característica de exclusión es una versión preliminar y puede estar sujeta a cambios o eliminación en el futuro.

¿Puedo solicitar más cuota?

Sí, con el formulario de solicitud de cuota siempre puede solicitar más cuota. Si se aprueba la solicitud, el nivel actual seguirá siendo el mismo, pero con más cuota asignada.

¿Cómo puedo comprobar el nivel de cuota de mi suscripción?

Actualmente puede comprobar el nivel de cuota con la API del plano de control:

curl -X GET \
  "https://management.azure.com/subscriptions/9d295860-44e3-44bb-ade9-235cc45c68ba/providers/Microsoft.CognitiveServices/quotaTiers?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer $(az account get-access-token --resource https://management.azure.com --query accessToken -o tsv)" \
  -H "Content-Type: application/json"

import requests
import json
from azure.identity import DefaultAzureCredential


subscriptionId = "{YOUR-SUBSCRIPTION-ID}"
api_version = "2025-10-01-preview" 
base_url = "https://management.azure.com"

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {
    'Authorization': 'Bearer ' + token.token,
    'Content-Type': 'application/json'
}


list_url = (
    f"{base_url}/subscriptions/{subscriptionId}"
    f"/providers/Microsoft.CognitiveServices/quotaTiers"
    f"?api-version={api_version}"
)

response = requests.get(list_url, headers=headers)
print(json.dumps(response.json(), indent=2))

{
  "value": [
    {
      "properties": {
        "currentTierName": "Tier 1",
        "assignmentDate": "2025-10-18T05:09:05.6334222Z",
        "tierUpgradePolicy": "OnceUpgradeIsAvailable"
      },
      "id": "/subscriptions/aaaaa-bbbbb-ccccc-dddd-eeeeeee/providers/Microsoft.CognitiveServices/quotaTiers/default",
      "name": "default",
      "type": "Microsoft.CognitiveServices/quotaTiers"
    }
  ]
}

Referencia del nivel de cuota

Nivel 1

Nombre del modelo	Tipo de implementación	Solicitudes por minuto (RPM)	Tokens por minuto (TPM)
codex-mini	GlobalStandard	1,000	1,000,000
computer-use-preview	GlobalStandard	4,500	450,000
gpt-4.1	DataZoneStandard	300	300,000
gpt-4.1	GlobalStandard	1,000	1,000,000
gpt-4.1-mini	DataZoneStandard	2,000	2,000,000
gpt-4.1-mini	GlobalStandard	5,000	5,000,000
gpt-4.1-mini	Estándar	6,000	6,000,000
gpt-4.1-nano	DataZoneStandard	2,000	2,000,000
gpt-4.1-nano	GlobalStandard	5,000	5,000,000
gpt-4o	DataZoneStandard	300 / 10s	300,000
gpt-4o-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini	DataZoneStandard	10,000	1,000,000
gpt-4o-mini	GlobalStandard	20,000	2,000,000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-realtime-preview	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	3,000	300,000
gpt-5	GlobalStandard	10,000	1,000,000
gpt-5-chat	GlobalStandard	1,000	1,000,000
gpt-5-codex	GlobalStandard	1,000	1,000,000
gpt-5-mini	DataZoneStandard	300	300,000
gpt-5-mini	GlobalStandard	1,000	1,000,000
gpt-5-nano	DataZoneStandard	2,000	2,000,000
gpt-5-nano	GlobalStandard	5,000	5,000,000
gpt-5-pro	GlobalStandard	1,600	160,000
gpt-5.1	DataZoneStandard	3,000	300,000
gpt-5.1	GlobalStandard	10,000	1,000,000
gpt-5.1-chat	GlobalStandard	10,000	1,000,000
gpt-5.1-codex	DataZoneStandard	3,000	300,000
gpt-5.1-codex	GlobalStandard	1,000	1,000,000
gpt-5.1-codex-max	GlobalStandard	10,000	1,000,000
gpt-5.1-codex-mini	GlobalStandard	1,000	1,000,000
gpt-5.2	DataZoneStandard	3,000	300,000
gpt-5.2	GlobalStandard	10,000	1,000,000
gpt-5.2-chat	GlobalStandard	10,000	1,000,000
gpt-5.3-chat	GlobalStandard	1,000	1,000,000
gpt-5.2-codex	GlobalStandard	10,000	1,000,000
gpt-5.3-codex	GlobalStandard	10,000	1,000,000
gpt-5.4	DataZoneStandard	300	300,000
gpt-5.4	GlobalStandard	10,000	1,000,000
gpt-5.4-pro	GlobalStandard	160	160,000
gpt-5.4-mini	GlobalStandard	1,000	1,000,000
gpt-5.4-nano	DataZoneStandard	2,000	2,000,000
gpt-5.4-nano	GlobalStandard	5,000	5,000,000
gpt-5.5	DataZoneStandard	0	0
gpt-5.5	GlobalStandard	0	0
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	9	-
gpt-image-1-mini	GlobalStandard	12	-
gpt-image-1.5	DataZoneStandard	3	-
gpt-image-1.5	GlobalStandard	9	-
gpt-image-2	DataZoneStandard	3	-
gpt-image-2	GlobalStandard	9	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	150	150,000
o1	DataZoneStandard	100	600,000
o1	GlobalStandard	500	3,000,000
o3	DataZoneStandard	300	300,000
o3	GlobalStandard	1,000	1,000,000
o3-deep-research	GlobalStandard	3,000	3,000,000
o3-mini	DataZoneStandard	200	2,000,000
o3-mini	GlobalStandard	500	5,000,000
o3-pro	GlobalStandard	160	1,600,000
o4-mini	DataZoneStandard	300 / 10s	300,000
o4-mini	GlobalStandard	1,000	1,000,000
inserción de texto-3-large	DataZoneStandard	1,000	1,000,000
inserción de texto-3-large	GlobalStandard	1000 / 10s	1,000,000
inserción de texto-3-small	DataZoneStandard	1,000	1,000,000
inserción de texto-3-small	GlobalStandard	1000 / 10s	1,000,000

Nivel 2

Nombre del modelo	Tipo de implementación	Solicitudes por minuto (RPM)	Tokens por minuto (TPM)
codex-mini	GlobalStandard	2,000	2,000,000
computer-use-preview	GlobalStandard	20,000	2,000,000
gpt-4.1	DataZoneStandard	1,000	1,000,000
gpt-4.1	GlobalStandard	3,000	3,000,000
gpt-4.1-mini	DataZoneStandard	6,000	6,000,000
gpt-4.1-mini	GlobalStandard	16,000	16,000,000
gpt-4.1-mini	Estándar	12,000	12,000,000
gpt-4.1-nano	DataZoneStandard	6,000	6,000,000
gpt-4.1-nano	GlobalStandard	16,000	16,000,000
gpt-4o	DataZoneStandard	1000 / 10s	1,000,000
gpt-4o-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini	DataZoneStandard	30,000	3,000,000
gpt-4o-mini	GlobalStandard	90,000	9,000,000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-realtime-preview	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	10,000	1,000,000
gpt-5	GlobalStandard	30,000	3,000,000
gpt-5-chat	GlobalStandard	2,000	2,000,000
gpt-5-codex	GlobalStandard	2,000	2,000,000
gpt-5-mini	DataZoneStandard	670	670,000
gpt-5-mini	GlobalStandard	2,000	2,000,000
gpt-5-nano	DataZoneStandard	6,000	6,000,000
gpt-5-nano	GlobalStandard	16,000	16,000,000
gpt-5-pro	GlobalStandard	3,500	350,000
gpt-5.1	DataZoneStandard	6,700	670,000
gpt-5.1	GlobalStandard	20,000	2,000,000
gpt-5.1-chat	GlobalStandard	20,000	2,000,000
gpt-5.1-codex	DataZoneStandard	6,700	670,000
gpt-5.1-codex	GlobalStandard	2,000	2,000,000
gpt-5.1-codex-max	GlobalStandard	20,000	2,000,000
gpt-5.1-codex-mini	GlobalStandard	2,000	2,000,000
gpt-5.2	DataZoneStandard	6,700	670,000
gpt-5.2	GlobalStandard	20,000	2,000,000
gpt-5.2-chat	GlobalStandard	20,000	2,000,000
gpt-5.3-chat	GlobalStandard	2,000	2,000,000
gpt-5.2-codex	GlobalStandard	20,000	2,000,000
gpt-5.3-codex	GlobalStandard	20,000	2,000,000
gpt-5.4	DataZoneStandard	670	670,000
gpt-5.4	GlobalStandard	20,000	2,000,000
gpt-5.4-pro	GlobalStandard	350	350,000
gpt-5.4-mini	GlobalStandard	2,000	2,000,000
gpt-5.4-nano	DataZoneStandard	6,000	6,000,000
gpt-5.4-nano	GlobalStandard	16,000	16,000,000
gpt-5.5	DataZoneStandard	0	0
gpt-5.5	GlobalStandard	0	0
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	18	-
gpt-image-1-mini	GlobalStandard	27	-
gpt-image-1.5	DataZoneStandard	5	-
gpt-image-1.5	GlobalStandard	15	-
gpt-image-2	DataZoneStandard	5	-
gpt-image-2	GlobalStandard	15	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	190	190,000
o1	DataZoneStandard	225	1,350,000
o1	GlobalStandard	1,000	6,000,000
o3	DataZoneStandard	670	670,000
o3	GlobalStandard	2,000	2,000,000
o3-deep-research	GlobalStandard	7,000	7,000,000
o3-mini	DataZoneStandard	350	3,500,000
o3-mini	GlobalStandard	1,000	10,000,000
o3-pro	GlobalStandard	350	3,500,000
o4-mini	DataZoneStandard	670 /10s	670,000
o4-mini	GlobalStandard	2,000	2,000,000
inserción de texto-3-large	DataZoneStandard	2,000	2,000,000
inserción de texto-3-large	GlobalStandard	2000 / 10s	2,000,000
inserción de texto-3-small	DataZoneStandard	2,000	2,000,000
inserción de texto-3-small	GlobalStandard	2000 / 10s	2,000,000

Nivel 3

Nombre del modelo	Tipo de implementación	Solicitudes por minuto (RPM)	Tokens por minuto (TPM)
codex-mini	GlobalStandard	4,000	4,000,000
computer-use-preview	GlobalStandard	70,000	7,000,000
gpt-4.1	DataZoneStandard	3,000	3,000,000
gpt-4.1	GlobalStandard	9,000	9,000,000
gpt-4.1-mini	DataZoneStandard	16,000	16,000,000
gpt-4.1-mini	GlobalStandard	46,000	46,000,000
gpt-4.1-mini	Estándar	30,000	30,000,000
gpt-4.1-nano	DataZoneStandard	16,000	16,000,000
gpt-4.1-nano	GlobalStandard	46,000	46,000,000
gpt-4o	DataZoneStandard	3000 / 10s	3,000,000
gpt-4o-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini	DataZoneStandard	70,000	7,000,000
gpt-4o-mini	GlobalStandard	330,000	33,000,000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-realtime-preview	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	30,000	3,000,000
gpt-5	GlobalStandard	90,000	9,000,000
gpt-5-chat	GlobalStandard	3,000	3,000,000
gpt-5-codex	GlobalStandard	4,000	4,000,000
gpt-5-mini	DataZoneStandard	1,000	1,000,000
gpt-5-mini	GlobalStandard	4,000	4,000,000
gpt-5-nano	DataZoneStandard	16,000	16,000,000
gpt-5-nano	GlobalStandard	46,000	46,000,000
gpt-5-pro	GlobalStandard	7,000	700,000
gpt-5.1	DataZoneStandard	10,000	1,000,000
gpt-5.1	GlobalStandard	40,000	4,000,000
gpt-5.1-chat	GlobalStandard	30,000	3,000,000
gpt-5.1-codex	DataZoneStandard	10,000	1,000,000
gpt-5.1-codex	GlobalStandard	4,000	4,000,000
gpt-5.1-codex-max	GlobalStandard	40,000	4,000,000
gpt-5.1-codex-mini	GlobalStandard	4,000	4,000,000
gpt-5.2	DataZoneStandard	10,000	1,000,000
gpt-5.2	GlobalStandard	40,000	4,000,000
gpt-5.2-chat	GlobalStandard	30,000	3,000,000
gpt-5.3-chat	GlobalStandard	3,000	3,000,000
gpt-5.2-codex	GlobalStandard	40,000	4,000,000
gpt-5.3-codex	GlobalStandard	40,000	4,000,000
gpt-5.4	DataZoneStandard	1,000	1,000,000
gpt-5.4	GlobalStandard	40,000	4,000,000
gpt-5.4-pro	GlobalStandard	700	700,000
gpt-5.4-mini	GlobalStandard	4,000	4,000,000
gpt-5.4-nano	DataZoneStandard	16,000	16,000,000
gpt-5.4-nano	GlobalStandard	46,000	46,000,000
gpt-5.5	DataZoneStandard	0	0
gpt-5.5	GlobalStandard	0	0
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	30	-
gpt-image-1-mini	GlobalStandard	54	-
gpt-image-1.5	DataZoneStandard	10	-
gpt-image-1.5	GlobalStandard	30	-
gpt-image-2	DataZoneStandard	10	-
gpt-image-2	GlobalStandard	30	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	235	235,000
o1	DataZoneStandard	450	2,700,000
o1	GlobalStandard	2,000	12,000,000
o3	DataZoneStandard	1,000	1,000,000
o3	GlobalStandard	4,000	4,000,000
o3-deep-research	GlobalStandard	13,000	13,000,000
o3-mini	DataZoneStandard	900	9,000,000
o3-mini	GlobalStandard	2,000	20,000,000
o3-pro	GlobalStandard	715	7,150,000
o4-mini	DataZoneStandard	1000 / 10s	1,000,000
o4-mini	GlobalStandard	4,000	4,000,000
inserción de texto-3-large	DataZoneStandard	4,000	4,000,000
inserción de texto-3-large	GlobalStandard	4000 / 10s	4,000,000
inserción de texto-3-small	DataZoneStandard	4,000	4,000,000
inserción de texto-3-small	GlobalStandard	4000 / 10s	4,000,000

Nivel 4

Nombre del modelo	Tipo de implementación	Solicitudes por minuto (RPM)	Tokens por minuto (TPM)
codex-mini	GlobalStandard	7,000	7,000,000
computer-use-preview	GlobalStandard	160,000	16,000,000
gpt-4.1	DataZoneStandard	6,000	6,000,000
gpt-4.1	GlobalStandard	18,000	18,000,000
gpt-4.1-mini	DataZoneStandard	31,000	31,000,000
gpt-4.1-mini	GlobalStandard	90,000	90,000,000
gpt-4.1-mini	Estándar	75,000	75,000,000
gpt-4.1-nano	DataZoneStandard	31,000	31,000,000
gpt-4.1-nano	GlobalStandard	90,000	90,000,000
gpt-4o	DataZoneStandard	6000 / 10s	6,000,000
gpt-4o-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini	DataZoneStandard	130,000	13,000,000
gpt-4o-mini	GlobalStandard	780,000	78,000,000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-realtime-preview	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	60,000	6,000,000
gpt-5	GlobalStandard	180,000	18,000,000
gpt-5-chat	GlobalStandard	4,000	4,000,000
gpt-5-codex	GlobalStandard	7,000	7,000,000
gpt-5-mini	DataZoneStandard	2,000	2,000,000
gpt-5-mini	GlobalStandard	7,000	7,000,000
gpt-5-nano	DataZoneStandard	31,000	31,000,000
gpt-5-nano	GlobalStandard	90,000	90,000,000
gpt-5-pro	GlobalStandard	11,500	1,150,000
gpt-5.1	DataZoneStandard	20,000	2,000,000
gpt-5.1	GlobalStandard	70,000	7,000,000
gpt-5.1-chat	GlobalStandard	40,000	4,000,000
gpt-5.1-codex	DataZoneStandard	20,000	2,000,000
gpt-5.1-codex	GlobalStandard	7,000	7,000,000
gpt-5.1-codex-max	GlobalStandard	70,000	7,000,000
gpt-5.1-codex-mini	GlobalStandard	7,000	7,000,000
gpt-5.2	DataZoneStandard	20,000	2,000,000
gpt-5.2	GlobalStandard	70,000	7,000,000
gpt-5.2-chat	GlobalStandard	40,000	4,000,000
gpt-5.3-chat	GlobalStandard	4,000	4,000,000
gpt-5.2-codex	GlobalStandard	70,000	7,000,000
gpt-5.3-codex	GlobalStandard	70,000	7,000,000
gpt-5.4	DataZoneStandard	2,000	2,000,000
gpt-5.4	GlobalStandard	70,000	7,000,000
gpt-5.4-pro	GlobalStandard	1,150	1,150,000
gpt-5.4-mini	GlobalStandard	7,000	7,000,000
gpt-5.4-nano	DataZoneStandard	31,000	31,000,000
gpt-5.4-nano	GlobalStandard	90,000	90,000,000
gpt-5.5	DataZoneStandard	0	0
gpt-5.5	GlobalStandard	0	0
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	45	-
gpt-image-1-mini	GlobalStandard	84	-
gpt-image-1.5	DataZoneStandard	15	-
gpt-image-1.5	GlobalStandard	45	-
gpt-image-2	DataZoneStandard	15	-
gpt-image-2	GlobalStandard	45	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	270	270,000
o1	DataZoneStandard	700	4,200,000
o1	GlobalStandard	4,000	24,000,000
o3	DataZoneStandard	2,000	2,000,000
o3	GlobalStandard	7,000	7,000,000
o3-deep-research	GlobalStandard	21,000	21,000,000
o3-mini	DataZoneStandard	1,000	10,000,000
o3-mini	GlobalStandard	4,000	40,000,000
o3-pro	GlobalStandard	1,150	11,500,000
o4-mini	DataZoneStandard	2000 / 10s	2,000,000
o4-mini	GlobalStandard	7,000	7,000,000
inserción de texto-3-large	DataZoneStandard	7,000	7,000,000
inserción de texto-3-large	GlobalStandard	7000 / 10s	7,000,000
inserción de texto-3-small	DataZoneStandard	7,000	7,000,000
inserción de texto-3-small	GlobalStandard	7000 / 10s	7,000,000

Nivel 5

Nombre del modelo	Tipo de implementación	Solicitudes por minuto (RPM)	Tokens por minuto (TPM)
codex-mini	GlobalStandard	10,000	10,000,000
computer-use-preview	GlobalStandard	300,000	30,000,000
gpt-4.1	DataZoneStandard	10,000	10,000,000
gpt-4.1	GlobalStandard	30,000	30,000,000
gpt-4.1-mini	DataZoneStandard	50,000	50,000,000
gpt-4.1-mini	GlobalStandard	150,000	150,000,000
gpt-4.1-mini	Estándar	150,000	150,000,000
gpt-4.1-nano	DataZoneStandard	50,000	50,000,000
gpt-4.1-nano	GlobalStandard	150,000	150,000,000
gpt-4o	DataZoneStandard	10000 / 10s	10,000,000
gpt-4o-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini	DataZoneStandard	200,000	20,000,000
gpt-4o-mini	GlobalStandard	1,500,000	150,000,000
gpt-4o-mini-audio-preview	GlobalStandard	30000 / 10s	30,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	36	6,000
gpt-4o-realtime-preview	GlobalStandard	36	6,000
gpt-5	DataZoneStandard	100,000	10,000,000
gpt-5	GlobalStandard	300,000	30,000,000
gpt-5-chat	GlobalStandard	5,000	5,000,000
gpt-5-codex	GlobalStandard	10,000	10,000,000
gpt-5-mini	DataZoneStandard	3,000	3,000,000
gpt-5-mini	GlobalStandard	10,000	10,000,000
gpt-5-nano	DataZoneStandard	50,000	50,000,000
gpt-5-nano	GlobalStandard	150,000	150,000,000
gpt-5-pro	GlobalStandard	16,000	1,600,000
gpt-5.1	DataZoneStandard	30,000	3,000,000
gpt-5.1	GlobalStandard	100,000	10,000,000
gpt-5.1-chat	GlobalStandard	50,000	5,000,000
gpt-5.1-codex	DataZoneStandard	30,000	3,000,000
gpt-5.1-codex	GlobalStandard	10,000	10,000,000
gpt-5.1-codex-max	GlobalStandard	100,000	10,000,000
gpt-5.1-codex-mini	GlobalStandard	10,000	10,000,000
gpt-5.2	DataZoneStandard	30,000	3,000,000
gpt-5.2	GlobalStandard	100,000	10,000,000
gpt-5.2-chat	GlobalStandard	50,000	5,000,000
gpt-5.3-chat	GlobalStandard	5,000	5,000,000
gpt-5.2-codex	GlobalStandard	100,000	10,000,000
gpt-5.3-codex	GlobalStandard	100,000	10,000,000
gpt-5.4	DataZoneStandard	3,000	3,000,000
gpt-5.4	GlobalStandard	100,000	10,000,000
gpt-5.4-pro	GlobalStandard	1,600	1,600,000
gpt-5.4-mini	GlobalStandard	10,000	10,000,000
gpt-5.4-nano	DataZoneStandard	50,000	50,000,000
gpt-5.4-nano	GlobalStandard	150,000	150,000,000
gpt-5.5	DataZoneStandard	3,000	3,000,000
gpt-5.5	GlobalStandard	10,000	10,000,000
gpt-audio	GlobalStandard	30000 / 10s	30,000,000
gpt-image-1	GlobalStandard	60	-
gpt-image-1-mini	GlobalStandard	120	-
gpt-image-1.5	DataZoneStandard	20	-
gpt-image-1.5	GlobalStandard	60	-
gpt-image-2	DataZoneStandard	20	-
gpt-image-2	GlobalStandard	60	-
gpt-realtime	GlobalStandard	200	100,000
model-router	DataZoneStandard	300	300,000
o1	DataZoneStandard	1,000	6,000,000
o1	GlobalStandard	5,000	30,000,000
o3	DataZoneStandard	3,000	3,000,000
o3	GlobalStandard	10,000	10,000,000
o3-deep-research	GlobalStandard	30,000	30,000,000
o3-mini	DataZoneStandard	2,000	20,000,000
o3-mini	GlobalStandard	5,000	50,000,000
o3-pro	GlobalStandard	1,600	16,000,000
o4-mini	DataZoneStandard	3000 / 10s	3,000,000
o4-mini	GlobalStandard	10,000	10,000,000
inserción de texto-3-large	DataZoneStandard	10,000	10,000,000
inserción de texto-3-large	GlobalStandard	10000 / 10s	10,000,000
inserción de texto-3-small	DataZoneStandard	10,000	10,000,000
inserción de texto-3-small	GlobalStandard	10000 / 10s	10,000,000

Nivel 6

Nombre del modelo	Tipo de implementación	Solicitudes por minuto (RPM)	Tokens por minuto (TPM)
codex-mini	GlobalStandard	15,000	15,000,000
computer-use-preview	GlobalStandard	450,000	45,000,000
gpt-4.1	DataZoneStandard	15,000	15,000,000
gpt-4.1	GlobalStandard	45,000	45,000,000
gpt-4.1-mini	DataZoneStandard	75,000	75,000,000
gpt-4.1-mini	GlobalStandard	225,000	225,000,000
gpt-4.1-mini	Estándar	225,000	225,000,000
gpt-4.1-nano	DataZoneStandard	75,000	75,000,000
gpt-4.1-nano	GlobalStandard	225,000	225,000,000
gpt-4o	DataZoneStandard	15000 / 10s	15,000,000
gpt-4o-audio-preview	GlobalStandard	45000 / 10s	45,000,000
gpt-4o-mini	DataZoneStandard	300,000	30,000,000
gpt-4o-mini	GlobalStandard	2,250,000	225,000,000
gpt-4o-mini-audio-preview	GlobalStandard	45000 / 10s	45,000,000
gpt-4o-mini-realtime-preview	GlobalStandard	54	9,000
gpt-4o-realtime-preview	GlobalStandard	54	9,000
gpt-5	DataZoneStandard	150,000	15,000,000
gpt-5	GlobalStandard	450,000	45,000,000
gpt-5-chat	GlobalStandard	8,000	8,000,000
gpt-5-codex	GlobalStandard	15,000	15,000,000
gpt-5-mini	DataZoneStandard	4,000	4,000,000
gpt-5-mini	GlobalStandard	15,000	15,000,000
gpt-5-nano	DataZoneStandard	75,000	75,000,000
gpt-5-nano	GlobalStandard	225,000	225,000,000
gpt-5-pro	GlobalStandard	24,000	2,400,000
gpt-5.1	DataZoneStandard	40,000	4,000,000
gpt-5.1	GlobalStandard	150,000	15,000,000
gpt-5.1-chat	GlobalStandard	80,000	8,000,000
gpt-5.1-codex	DataZoneStandard	40,000	4,000,000
gpt-5.1-codex	GlobalStandard	15,000	15,000,000
gpt-5.1-codex-max	GlobalStandard	150,000	15,000,000
gpt-5.1-codex-mini	GlobalStandard	15,000	15,000,000
gpt-5.2	DataZoneStandard	40,000	4,000,000
gpt-5.2	GlobalStandard	150,000	15,000,000
gpt-5.2-chat	GlobalStandard	80,000	8,000,000
gpt-5.3-chat	GlobalStandard	8,000	8,000,000
gpt-5.2-codex	GlobalStandard	150,000	15,000,000
gpt-5.3-codex	GlobalStandard	150,000	15,000,000
gpt-5.4	DataZoneStandard	4,000	4,000,000
gpt-5.4	GlobalStandard	150,000	15,000,000
gpt-5.4-pro	GlobalStandard	2,400	2,400,000
gpt-5.4-mini	GlobalStandard	15,000	15,000,000
gpt-5.4-nano	DataZoneStandard	75,000	75,000,000
gpt-5.4-nano	GlobalStandard	225,000	225,000,000
gpt-5.5	DataZoneStandard	4,000	4,000,000
gpt-5.5	GlobalStandard	15,000	15,000,000
gpt-audio	GlobalStandard	45000 / 10s	45,000,000
gpt-image-1	GlobalStandard	90	-
gpt-image-1-mini	GlobalStandard	180	-
gpt-image-1.5	DataZoneStandard	30	-
gpt-image-1.5	GlobalStandard	90	-
gpt-image-2	DataZoneStandard	30	-
gpt-image-2	GlobalStandard	90	-
gpt-realtime	GlobalStandard	300	150,000
model-router	DataZoneStandard	450	450,000
o1	DataZoneStandard	2,000	12,000,000
o1	GlobalStandard	8,000	48,000,000
o3	DataZoneStandard	4,000	4,000,000
o3	GlobalStandard	15,000	15,000,000
o3-deep-research	GlobalStandard	45,000	45,000,000
o3-mini	DataZoneStandard	3,000	30,000,000
o3-mini	GlobalStandard	8,000	80,000,000
o3-pro	GlobalStandard	2,400	24,000,000
o4-mini	DataZoneStandard	4000 / 10s	4,000,000
o4-mini	GlobalStandard	15,000	15,000,000
inserción de texto-3-large	DataZoneStandard	15,000	15,000,000
inserción de texto-3-large	GlobalStandard	15000 / 10s	15,000,000
inserción de texto-3-small	DataZoneStandard	15,000	15,000,000
inserción de texto-3-small	GlobalStandard	15000 / 10s	15,000,000

Referencia de cuotas y límites

En la sección siguiente se proporciona una guía rápida sobre las cuotas y límites predeterminados que se aplican a Azure OpenAI:

Nombre del límite	Valor de límite
Azure recursos de OpenAI por región, por suscripción de Azure	30.
Límites de cuota predeterminados de GPT-image-1	9 solicitudes por minuto
Límites de cuota predeterminados de GPT-image-1-mini	12 solicitudes por minuto
Límites de cuota predeterminados de GPT-image-1.5	9 solicitudes por minuto
Límites de cuota predeterminados de GPT-image-2	9 solicitudes por minuto
Límites de cuota predeterminados de Sora	60 solicitudes por minuto.
Límites de cuota predeterminados de Sora 2	2 solicitudes de trabajo¹ por minuto
Límites predeterminados de cuota de audio de voz a texto	3 solicitudes por minuto.
Número máximo de tokens de solicitud por solicitud	Varía según el modelo. Para obtener más información, consulte Azure modelos openAI.
Implementaciones estándar máximas por recurso	32.
Implementaciones máximas de modelos ajustados	10.
Número total de trabajos de entrenamiento por recurso	100.
Número máximo de trabajos de entrenamiento en ejecución simultánea por recurso	Formación estándar y global: 3; Formación para desarrolladores: 5
Número máximo de trabajos de entrenamiento en cola	20.
Máximo de archivos por recurso (ajuste preciso)	100.
Tamaño total de todos los archivos por recurso (ajuste preciso)	1 GB.
Tiempo máximo de trabajo de entrenamiento (se produce un error en el trabajo si se supera)	720 horas.
Tamaño máximo del trabajo de entrenamiento `(tokens in training file) x (# of epochs)`	2 mil millones.
Tamaño máximo de todos los archivos por carga (Azure OpenAI en los datos)	16 MB.
Número máximo de entradas en la matriz con `/embeddings`	2,048.
Número máximo de `/chat/completions` mensajes	2,048.
Número máximo de `/chat/completions` funciones	128.
Número máximo de `/chat/completions` herramientas	128.
Número máximo de unidades de rendimiento aprovisionadas por implementación	100,000.
Número máximo de archivos por asistente o subproceso	10 000 al usar la API o el portal de Microsoft Foundry.
Tamaño máximo de archivo para asistentes y ajuste preciso	512 MB a través de la API 200 MB a través del portal de Foundry.
Número máximo de solicitudes de carga de archivos por recurso	30 solicitudes por segundo.
Tamaño máximo para todos los archivos cargados para asistentes	200 GB.
Límite de tokens de asistentes	Límite de 2000 000 tokens.
`GPT-4o` y `GPT-4.1` las imágenes máximas por solicitud (número de imágenes en la matriz de mensajes o el historial de conversaciones)	50.
`GPT-4 vision-preview` y `GPT-4 turbo-2024-04-09` los tokens máximos predeterminados	16. Aumente el valor del `max_tokens` parámetro para evitar respuestas truncadas. `GPT-4o` el valor predeterminado de los tokens máximos es 4096.
Número máximo de encabezados personalizados en solicitudes de API²	10.
Límite de caracteres de mensaje	1,048,576.
Tamaño del mensaje para archivos de audio	20 MB.

¹ La cuota de Sora 2 RPM solo cuenta las solicitudes de trabajo de vídeo. Otros tipos de solicitudes no están limitados por velocidad.

² Nuestras API actuales permiten hasta 10 encabezados personalizados, que se pasan a través de la canalización y se devuelven. Algunos clientes ahora superan este recuento de encabezados, lo que produce errores HTTP 431. No hay ninguna solución para este error, aparte de reducir el volumen de encabezados. En futuras versiones de API, no pasaremos por encabezados personalizados. Se recomienda que los clientes no dependan de encabezados personalizados en futuras arquitecturas del sistema.

Nota

Los límites de cuota están sujetos a cambios.

límites de velocidad del enrutador de modelos

Modelo	Tipo de implementación	RPM predeterminado	TPM predeterminado	RPM y de empresa y MCA-E	TPM empresarial y MCA-E
`model-router` `(2025-11-18)`	DataZoneStandard	150	150,000	300	300,000
`model-router` `(2025-11-18)`	GlobalStandard	250	250,000	400	400,000

Límites de Batch

Nombre del límite	Valor de límite
Número máximo de archivos de entrada de Batch: (sin expiración)	500
Número máximo de archivos de entrada de Batch: (conjunto de expiración)	10,000
Tamaño máximo de archivo de entrada	200 MB
Tamaño máximo de archivo de entrada: Traiga su propio almacenamiento (BYOS)	1 GB
Número máximo de solicitudes por archivo	100,000

Nota

Los límites de archivos por lotes no se aplican a los archivos de salida (por ejemplo, result.jsonl, y error.jsonl). Para quitar límites de archivos de entrada por lotes, use Batch con Azure Blob Storage.

Cuota por lotes

En la tabla se muestra el límite de cuota por lotes. Los valores de cuota para lote global se representan en términos de tokens en cola. Al enviar un archivo para el procesamiento por lotes, se cuenta el número de tokens del archivo. Hasta que el trabajo por lotes alcanza un estado de terminal, esos tokens cuentan con el límite total de tokens en cola.

Lote global

Modelo	Enterprise y MCA-E	Valor predeterminado	Suscripciones mensuales basadas en tarjetas de crédito	Suscripciones de MSDN	Azure para estudiantes, pruebas gratuitas
`gpt-4.1`	5B	200 millones	50 M	90 000	N/A
`gpt-4.1 mini`	15B	1B	50 M	90 000	N/A
`gpt-4.1-nano`	15B	1B	50 M	90 000	N/A
`gpt-4o`	5B	200 millones	50 M	90 000	N/A
`gpt-4o-mini`	15B	1B	50 M	90 000	N/A
`gpt-4-turbo`	300 M	80 M	40 M	90 000	N/A
`gpt-4`	150 M	30 M	5 M	100 000	N/A
`o3-mini`	15B	1B	50 M	90 000	N/A
`o4-mini`	15B	1B	50 M	90 000	N/A
`gpt-5`	5B	200 millones	50 M	90 000	N/A
`gpt-5.1`	5B	200 millones	50 M	90 000	N/A

B = mil millones | M = millones | K = mil

Lote de zona de datos

Modelo	Enterprise y MCA-E	Valor predeterminado	Suscripciones mensuales basadas en tarjetas de crédito	Suscripciones de MSDN	Azure para estudiantes, pruebas gratuitas
`gpt-4.1`	500 M	30 M	30 M	90 000	N/A
`gpt-4.1-mini`	1.5B	100 M	50 M	90 000	N/A
`gpt-4o`	500 M	30 M	30 M	90 000	N/A
`gpt-4o-mini`	1.5B	100 M	50 M	90 000	N/A
`o3-mini`	1.5B	100 M	50 M	90 000	N/A
`gpt-5`	5B	200 millones	50 M	90 000	N/A
`gpt-5.1`	5B	200 millones	50 M	90 000	N/A

gpt-oss

Modelo	Tokens por minuto (TPM)	Solicitudes por minuto (RPM)
`gpt-oss-120b`	5 M	5 K

Niveles de uso

Las implementaciones estándar globales usan la infraestructura global de Azure. Enrutan dinámicamente el tráfico del cliente al centro de datos con la mejor disponibilidad para las solicitudes de inferencia del cliente. De forma similar, las implementaciones estándar de zona de datos permiten usar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos dentro de la zona de datos definida por Microsoft con la mejor disponibilidad para cada solicitud. Esta práctica permite una latencia más coherente para los clientes con niveles bajos a medio de tráfico. Los clientes con altos niveles de uso sostenidos podrían ver una mayor variabilidad en la latencia de respuesta.

Azure niveles de uso de OpenAI están diseñados para proporcionar un rendimiento coherente para la mayoría de los clientes con niveles bajos y medio de tráfico. Cada nivel de uso define el rendimiento máximo (tokens por minuto) que puede esperar con una latencia predecible. Cuando el uso permanece dentro del nivel asignado, la latencia permanece estable y los tiempos de respuesta son coherentes.

¿Qué ocurre si supera el nivel de uso?

Si el rendimiento de la solicitud supera el nivel de uso (especialmente durante períodos de alta demanda), la latencia de respuesta puede aumentar significativamente.
La latencia puede variar y, en algunos casos, puede ser más de dos veces mayor que cuando se trabaja dentro del nivel de uso.
Esta variabilidad es más notable para los clientes con un uso sostenido elevado o patrones de tráfico de ráfaga.

Acciones recomendadas si supera el nivel de uso

Si encuentra errores 429 o observa una mayor variabilidad de latencia, esto es lo que debe hacer:

Solicitar un aumento de cuota: visite el portal de Azure para solicitar una cuota mayor para la suscripción.
Considere la posibilidad de actualizar a una oferta Premium (PTU): para cargas de trabajo críticas o de gran volumen, actualice a unidades de rendimiento aprovisionadas (PTU). PTU proporciona recursos dedicados, capacidad garantizada y latencia predecible, incluso a escala. Esta es la mejor opción para las aplicaciones críticas que requieren un rendimiento coherente.
Supervisión del uso: revise periódicamente las métricas de uso en el portal de Azure para asegurarse de que está trabajando dentro de los límites del nivel. Ajuste la carga de trabajo o la estrategia de implementación según sea necesario.

Puede recibir respuestas 429 (demasiadas solicitudes), incluso cuando las métricas de uso de tokens aparecen por debajo de la cuota.

Esto puede ocurrir en los escenarios siguientes:

Solicitudes rechazadas debido a límites de longitud de entrada o contexto (HTTP 400). Estas solicitudes no se facturan y pueden no aparecer en las métricas de uso de tokens, pero todavía pueden contar hacia la limitación de velocidad.
Las solicitudes evaluadas en función del posible uso de tokens (por ejemplo, max_tokens), incluso si no se generan tokens en última instancia.
Comportamiento de limitación de velocidad distribuida, donde el cumplimiento puede no ser perfectamente preciso o reflejarse inmediatamente en las métricas agregadas.

El límite de uso determina el nivel de uso por encima del cual los clientes podrían ver una mayor variabilidad en la latencia de respuesta. El uso de un cliente se define por modelo. Es el número total de tokens consumidos en todas las implementaciones de todas las suscripciones de todas las regiones de un inquilino determinado.

Nota

Los niveles de uso solo se aplican a los tipos de implementación Estándar, Estándar de zona de datos y Estándar global. Los niveles de uso no se aplican a las implementaciones globales de procesamiento por lotes y aprovisionadas.

Estándar global, estándar de zona de datos y estándar

Modelo	Niveles de uso al mes
`gpt-5`	32 000 millones de tokens
`gpt-5-mini`	160 mil millones de tokens
`gpt-5-nano`	800 mil millones de tokens
`gpt-5-chat`	32 000 millones de tokens
`gpt-4` + `gpt-4-32k` (todas las versiones)	6 mil millones de tokens
`gpt-4o`	12 mil millones de tokens
`gpt-4o-mini`	85 000 millones de tokens
`o3-mini`	50 000 millones de tokens
`o1`	4 mil millones de tokens
`o4-mini`	50 000 millones de tokens
`o3`	5 mil millones de tokens
`gpt-4.1`	30 000 millones de tokens
`gpt-4.1-mini`	150 mil millones de tokens
`gpt-4.1-nano`	550 mil millones de tokens

Procedimientos recomendados generales para permanecer dentro de los límites de velocidad

Para minimizar los problemas relacionados con los límites de velocidad, es recomendable usar las técnicas siguientes:

Implemente la lógica de reintento en la aplicación.
Evite cambios nítidos en la carga de trabajo. Aumente la carga de trabajo gradualmente.
Pruebe diferentes patrones de aumento de carga.
Aumente la cuota asignada a la implementación. Mueva la cuota de otra implementación, si es necesario.

Aumentos de la cuota de solicitudes

Envíe el formulario de solicitud quota para solicitar aumentos de cuota para Foundry Models vendidos directamente por Azure, Azure modelos openAI y modelos de Anthropic. Excepto los modelos de Anthropic, Models de asociados y comunidad no admiten aumentos de cuota.

Las solicitudes de aumento de cuota se procesan en el orden en que se reciben y la prioridad va a los clientes que usan activamente su asignación de cuota existente. Es posible que se denieguen las solicitudes que no cumplen esta condición.

Límites de capacidad de cuota regional

Puede ver la disponibilidad de cuota por región de la suscripción en el portal de Foundry.

Para ver la capacidad de cuota por región para un modelo o versión específicos, puede consultar la API de capacidad de la suscripción. Proporcione un subscriptionId, model_namey y model_version la API devuelvan la capacidad disponible para ese modelo en todas las regiones y tipos de implementación de la suscripción.

Nota

Actualmente, tanto el portal de Foundry como la información de cuota/capacidad de la API de capacidad devuelven la cuota o capacidad de los modelos que se retiran y ya no están disponibles.

Consulte la referencia de API.

Antes de ejecutar el ejemplo:

Instalar dependencias: pip install azure-identity requests
Inicie sesión con una identidad de Azure que pueda leer las capacidades del modelo para la suscripción.

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

Explore cómo administrar cuota para las implementaciones de OpenAI de Azure.
Obtenga más información sobre los modelos underlying que potencian Azure OpenAI.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-05-01

Azure OpenAI en Microsoft Foundry Models cuotas y límites (clásico)

Ámbito de cuota

Asignación de cuota regional

Niveles de cuota

¿Qué me está cambiando?

¿Cómo se moverá automáticamente un cliente de un nivel a otro, por ejemplo, cuáles son los criterios de cambio de nivel?

¿Puedo rechazar las actualizaciones automáticas?

¿Puedo solicitar más cuota?

¿Cómo puedo comprobar el nivel de cuota de mi suscripción?

Referencia del nivel de cuota

Nivel 1

Referencia de cuotas y límites

límites de velocidad del enrutador de modelos

Límites de Batch

Cuota por lotes

Lote global

Lote de zona de datos

gpt-oss

Niveles de uso

¿Qué ocurre si supera el nivel de uso?

Acciones recomendadas si supera el nivel de uso

Estándar global, estándar de zona de datos y estándar

Procedimientos recomendados generales para permanecer dentro de los límites de velocidad

Aumentos de la cuota de solicitudes

Límites de capacidad de cuota regional

Contenido relacionado

Comentarios

Recursos adicionales

¿Cómo se moverá automáticamente un cliente de un nivel a otro, por ejemplo, cuáles son los criterios de cambio de nivel?