Azure OpenAI en Microsoft Foundry Models cuotas y límites (clásico)

Visualización actual:Versión - del portal de Foundry (clásico)Cambio a la versión del nuevo portal de Foundry

Nota

Los vínculos de este artículo pueden abrir contenido en la nueva documentación de Microsoft Foundry en lugar de la documentación de Foundry (clásico) que está viendo ahora.

Este artículo contiene una referencia rápida y una descripción detallada de las cuotas y límites de Azure OpenAI.

Ámbito de cuota

Las cuotas y los límites no se aplican en el nivel de inquilino. En su lugar, el nivel más alto de restricciones de cuota se limita al nivel de suscripción Azure.

Asignación de cuota regional

Los tokens por minuto (TPM) y las solicitudes por minuto (RPM) se definen por región, por suscripción y por modelo o tipo de implementación.

Por ejemplo, si el modelo gpt-4.1 Global Standard aparece con una cuota de 5 millones de TPM y 5 000 RPM, a continuación, each region donde ese model o tipo de implementación está disponible tiene su propio grupo de cuotas dedicado de esa cantidad para each de las suscripciones de Azure. Dentro de una sola suscripción de Azure, es posible usar una mayor cantidad de cuota total de TPM y RPM para un modelo y tipo de implementación determinado, siempre y cuando tenga recursos e implementaciones de modelos repartidos entre varias regiones.

Niveles de cuota

Estamos introduciendo niveles de cuota para mejorar la experiencia de los modelos de Foundry y reducir la fricción a medida que se escalan las cargas de trabajo. Las cuotas ahora aumentarán automáticamente con el uso, lo que ayuda a evitar errores de límite de velocidad al mismo tiempo que crean un entorno más justo para todos los usuarios. Siete niveles estarán disponibles: Nivel gratis y Niveles 1 a 6, con el nivel 6 que ofrece las cuotas más altas. El nivel asignado inicial de un cliente se basa en su uso actual de ese modelo y su relación actual con Microsoft, como el estado contrato Enterprise (EA o MCA-E). 

¿Qué me está cambiando?

Anteriormente, Foundry solo ofrecía niveles de cuota Predeterminado y Enterprise para el tipo de oferta de pago por uso, con una gran diferencia entre cada nivel y un proceso más largo para solicitar aumentos. Con los niveles de cuota, a todos los usuarios se les asigna un nivel con cuotas iguales o superiores a sus niveles anteriores. Los aumentos de cuota aprobados anteriormente se conservan y no se reducen. A medida que aumenta el uso, Foundry aumenta automáticamente las cuotas moviendo los usuarios a niveles superiores y se puede solicitar cuota adicional a través del formulario de cuota.

¿Cómo se moverá automáticamente un cliente de un nivel a otro, por ejemplo, cuáles son los criterios de cambio de nivel? 

Las actualizaciones automáticas de niveles se basan principalmente en las tendencias de consumo de clientes en foundry Models a lo largo del tiempo. Si el uso de un cliente aumenta de modo que su nivel de cuota actual limita su capacidad de usar Foundry Models, el sistema actualizará automáticamente al cliente al siguiente nivel superior. También se tiene en cuenta la relación de un cliente con Microsoft. A los clientes con relaciones empresariales (incluidos EA y MCA-E) con Microsoft se les asignan niveles de cuota superiores. Además, Microsoft también considerará el historial de pagos de un cliente para determinar la idoneidad de las actualizaciones automáticas. 

¿Puedo rechazar las actualizaciones automáticas?

Sí, puede no participar en las actualizaciones automáticas y permanecerá en el nivel actual independientemente de los cambios en el consumo. Reconocemos que algunos de nuestros clientes usan cuota para administrar su facturación. Esto no es el procedimiento recomendado Azure, sin embargo, entendemos que si el sistema está configurado de esa manera no queremos interrumpirlo. Puede obtener más información sobre la administración de facturación y los procedimientos recomendados aquí: Cost Management.

Para no participar, puede establecer la marca siguiente NoAutoUpgradeen :

curl -X PATCH \
  "https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
  -H "Content-Type: application/json" \
  -d '{
    "properties": {
      "tierUpgradePolicy": "NoAutoUpgrade"
    }
  }'

Nota

La característica de exclusión es una versión preliminar y puede estar sujeta a cambios o eliminación en el futuro.

¿Puedo solicitar más cuota?

Sí, con el formulario de solicitud de cuota siempre puede solicitar más cuota. Si se aprueba la solicitud, el nivel actual seguirá siendo el mismo, pero con más cuota asignada.

¿Cómo puedo comprobar el nivel de cuota de mi suscripción?

Actualmente puede comprobar el nivel de cuota con la API del plano de control:

curl -X GET \
  "https://management.azure.com/subscriptions/9d295860-44e3-44bb-ade9-235cc45c68ba/providers/Microsoft.CognitiveServices/quotaTiers?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer $(az account get-access-token --resource https://management.azure.com --query accessToken -o tsv)" \
  -H "Content-Type: application/json"

Referencia del nivel de cuota

Nivel 1

Nombre del modelo Tipo de implementación Solicitudes por minuto (RPM) Tokens por minuto (TPM)
codex-mini GlobalStandard 1,000 1,000,000
computer-use-preview GlobalStandard 4,500 450,000
gpt-4.1 DataZoneStandard 300 300,000
gpt-4.1 GlobalStandard 1,000 1,000,000
gpt-4.1-mini DataZoneStandard 2,000 2,000,000
gpt-4.1-mini GlobalStandard 5,000 5,000,000
gpt-4.1-mini Estándar 6,000 6,000,000
gpt-4.1-nano DataZoneStandard 2,000 2,000,000
gpt-4.1-nano GlobalStandard 5,000 5,000,000
gpt-4o DataZoneStandard 300 / 10s 300,000
gpt-4o-audio-preview GlobalStandard 30000 / 10s 30,000,000
gpt-4o-mini DataZoneStandard 10,000 1,000,000
gpt-4o-mini GlobalStandard 20,000 2,000,000
gpt-4o-mini-audio-preview GlobalStandard 30000 / 10s 30,000,000
gpt-4o-mini-realtime-preview GlobalStandard 36 6,000
gpt-4o-realtime-preview GlobalStandard 36 6,000
gpt-5 DataZoneStandard 3,000 300,000
gpt-5 GlobalStandard 10,000 1,000,000
gpt-5-chat GlobalStandard 1,000 1,000,000
gpt-5-codex GlobalStandard 1,000 1,000,000
gpt-5-mini DataZoneStandard 300 300,000
gpt-5-mini GlobalStandard 1,000 1,000,000
gpt-5-nano DataZoneStandard 2,000 2,000,000
gpt-5-nano GlobalStandard 5,000 5,000,000
gpt-5-pro GlobalStandard 1,600 160,000
gpt-5.1 DataZoneStandard 3,000 300,000
gpt-5.1 GlobalStandard 10,000 1,000,000
gpt-5.1-chat GlobalStandard 10,000 1,000,000
gpt-5.1-codex DataZoneStandard 3,000 300,000
gpt-5.1-codex GlobalStandard 1,000 1,000,000
gpt-5.1-codex-max GlobalStandard 10,000 1,000,000
gpt-5.1-codex-mini GlobalStandard 1,000 1,000,000
gpt-5.2 DataZoneStandard 3,000 300,000
gpt-5.2 GlobalStandard 10,000 1,000,000
gpt-5.2-chat GlobalStandard 10,000 1,000,000
gpt-5.3-chat GlobalStandard 1,000 1,000,000
gpt-5.2-codex GlobalStandard 10,000 1,000,000
gpt-5.3-codex GlobalStandard 10,000 1,000,000
gpt-5.4 DataZoneStandard 300 300,000
gpt-5.4 GlobalStandard 10,000 1,000,000
gpt-5.4-pro GlobalStandard 160 160,000
gpt-5.4-mini GlobalStandard 1,000 1,000,000
gpt-5.4-nano DataZoneStandard 2,000 2,000,000
gpt-5.4-nano GlobalStandard 5,000 5,000,000
gpt-5.5 DataZoneStandard 0 0
gpt-5.5 GlobalStandard 0 0
gpt-audio GlobalStandard 30000 / 10s 30,000,000
gpt-image-1 GlobalStandard 9 -
gpt-image-1-mini GlobalStandard 12 -
gpt-image-1.5 DataZoneStandard 3 -
gpt-image-1.5 GlobalStandard 9 -
gpt-image-2 DataZoneStandard 3 -
gpt-image-2 GlobalStandard 9 -
gpt-realtime GlobalStandard 200 100,000
model-router DataZoneStandard 150 150,000
o1 DataZoneStandard 100 600,000
o1 GlobalStandard 500 3,000,000
o3 DataZoneStandard 300 300,000
o3 GlobalStandard 1,000 1,000,000
o3-deep-research GlobalStandard 3,000 3,000,000
o3-mini DataZoneStandard 200 2,000,000
o3-mini GlobalStandard 500 5,000,000
o3-pro GlobalStandard 160 1,600,000
o4-mini DataZoneStandard 300 / 10s 300,000
o4-mini GlobalStandard 1,000 1,000,000
inserción de texto-3-large DataZoneStandard 1,000 1,000,000
inserción de texto-3-large GlobalStandard 1000 / 10s 1,000,000
inserción de texto-3-small DataZoneStandard 1,000 1,000,000
inserción de texto-3-small GlobalStandard 1000 / 10s 1,000,000

Referencia de cuotas y límites

En la sección siguiente se proporciona una guía rápida sobre las cuotas y límites predeterminados que se aplican a Azure OpenAI:

Nombre del límite Valor de límite
Azure recursos de OpenAI por región, por suscripción de Azure 30.
Límites de cuota predeterminados de GPT-image-1 9 solicitudes por minuto
Límites de cuota predeterminados de GPT-image-1-mini 12 solicitudes por minuto
Límites de cuota predeterminados de GPT-image-1.5 9 solicitudes por minuto
Límites de cuota predeterminados de GPT-image-2 9 solicitudes por minuto
Límites de cuota predeterminados de Sora 60 solicitudes por minuto.
Límites de cuota predeterminados de Sora 2 2 solicitudes de trabajo1 por minuto
Límites predeterminados de cuota de audio de voz a texto 3 solicitudes por minuto.
Número máximo de tokens de solicitud por solicitud Varía según el modelo. Para obtener más información, consulte Azure modelos openAI.
Implementaciones estándar máximas por recurso 32.
Implementaciones máximas de modelos ajustados 10.
Número total de trabajos de entrenamiento por recurso 100.
Número máximo de trabajos de entrenamiento en ejecución simultánea por recurso Formación estándar y global: 3;
Formación para desarrolladores: 5
Número máximo de trabajos de entrenamiento en cola 20.
Máximo de archivos por recurso (ajuste preciso) 100.
Tamaño total de todos los archivos por recurso (ajuste preciso) 1 GB.
Tiempo máximo de trabajo de entrenamiento (se produce un error en el trabajo si se supera) 720 horas.
Tamaño máximo del trabajo de entrenamiento (tokens in training file) x (# of epochs) 2 mil millones.
Tamaño máximo de todos los archivos por carga (Azure OpenAI en los datos) 16 MB.
Número máximo de entradas en la matriz con /embeddings 2,048.
Número máximo de /chat/completions mensajes 2,048.
Número máximo de /chat/completions funciones 128.
Número máximo de /chat/completions herramientas 128.
Número máximo de unidades de rendimiento aprovisionadas por implementación 100,000.
Número máximo de archivos por asistente o subproceso 10 000 al usar la API o el portal de Microsoft Foundry.
Tamaño máximo de archivo para asistentes y ajuste preciso 512 MB a través de la API

200 MB a través del portal de Foundry.
Número máximo de solicitudes de carga de archivos por recurso 30 solicitudes por segundo.
Tamaño máximo para todos los archivos cargados para asistentes 200 GB.
Límite de tokens de asistentes Límite de 2000 000 tokens.
GPT-4o y GPT-4.1 las imágenes máximas por solicitud (número de imágenes en la matriz de mensajes o el historial de conversaciones) 50.
GPT-4 vision-preview y GPT-4 turbo-2024-04-09 los tokens máximos predeterminados 16.

Aumente el valor del max_tokens parámetro para evitar respuestas truncadas. GPT-4o el valor predeterminado de los tokens máximos es 4096.
Número máximo de encabezados personalizados en solicitudes de API2 10.
Límite de caracteres de mensaje 1,048,576.
Tamaño del mensaje para archivos de audio 20 MB.

1 La cuota de Sora 2 RPM solo cuenta las solicitudes de trabajo de vídeo. Otros tipos de solicitudes no están limitados por velocidad.

2 Nuestras API actuales permiten hasta 10 encabezados personalizados, que se pasan a través de la canalización y se devuelven. Algunos clientes ahora superan este recuento de encabezados, lo que produce errores HTTP 431. No hay ninguna solución para este error, aparte de reducir el volumen de encabezados. En futuras versiones de API, no pasaremos por encabezados personalizados. Se recomienda que los clientes no dependan de encabezados personalizados en futuras arquitecturas del sistema.

Nota

Los límites de cuota están sujetos a cambios.

límites de velocidad del enrutador de modelos

Modelo Tipo de implementación RPM predeterminado TPM predeterminado RPM y de empresa y MCA-E TPM empresarial y MCA-E
model-router
(2025-11-18)
DataZoneStandard 150 150,000 300 300,000
model-router
(2025-11-18)
GlobalStandard 250 250,000 400 400,000

Límites de Batch

Nombre del límite Valor de límite
Número máximo de archivos de entrada de Batch: (sin expiración) 500
Número máximo de archivos de entrada de Batch: (conjunto de expiración) 10,000
Tamaño máximo de archivo de entrada 200 MB
Tamaño máximo de archivo de entrada: Traiga su propio almacenamiento (BYOS) 1 GB
Número máximo de solicitudes por archivo 100,000

Nota

Los límites de archivos por lotes no se aplican a los archivos de salida (por ejemplo, result.jsonl, y error.jsonl). Para quitar límites de archivos de entrada por lotes, use Batch con Azure Blob Storage.

Cuota por lotes

En la tabla se muestra el límite de cuota por lotes. Los valores de cuota para lote global se representan en términos de tokens en cola. Al enviar un archivo para el procesamiento por lotes, se cuenta el número de tokens del archivo. Hasta que el trabajo por lotes alcanza un estado de terminal, esos tokens cuentan con el límite total de tokens en cola.

Lote global

Modelo Enterprise y MCA-E Valor predeterminado Suscripciones mensuales basadas en tarjetas de crédito Suscripciones de MSDN Azure para estudiantes, pruebas gratuitas
gpt-4.1 5B 200 millones 50 M 90 000 N/A
gpt-4.1 mini 15B 1B 50 M 90 000 N/A
gpt-4.1-nano 15B 1B 50 M 90 000 N/A
gpt-4o 5B 200 millones 50 M 90 000 N/A
gpt-4o-mini 15B 1B 50 M 90 000 N/A
gpt-4-turbo 300 M 80 M 40 M 90 000 N/A
gpt-4 150 M 30 M 5 M 100 000 N/A
o3-mini 15B 1B 50 M 90 000 N/A
o4-mini 15B 1B 50 M 90 000 N/A
gpt-5 5B 200 millones 50 M 90 000 N/A
gpt-5.1 5B 200 millones 50 M 90 000 N/A

B = mil millones | M = millones | K = mil

Lote de zona de datos

Modelo Enterprise y MCA-E Valor predeterminado Suscripciones mensuales basadas en tarjetas de crédito Suscripciones de MSDN Azure para estudiantes, pruebas gratuitas
gpt-4.1 500 M 30 M 30 M 90 000 N/A
gpt-4.1-mini 1.5B 100 M 50 M 90 000 N/A
gpt-4o 500 M 30 M 30 M 90 000 N/A
gpt-4o-mini 1.5B 100 M 50 M 90 000 N/A
o3-mini 1.5B 100 M 50 M 90 000 N/A
gpt-5 5B 200 millones 50 M 90 000 N/A
gpt-5.1 5B 200 millones 50 M 90 000 N/A

gpt-oss

Modelo Tokens por minuto (TPM) Solicitudes por minuto (RPM)
gpt-oss-120b 5 M 5 K

Niveles de uso

Las implementaciones estándar globales usan la infraestructura global de Azure. Enrutan dinámicamente el tráfico del cliente al centro de datos con la mejor disponibilidad para las solicitudes de inferencia del cliente. De forma similar, las implementaciones estándar de zona de datos permiten usar la infraestructura global de Azure para enrutar dinámicamente el tráfico al centro de datos dentro de la zona de datos definida por Microsoft con la mejor disponibilidad para cada solicitud. Esta práctica permite una latencia más coherente para los clientes con niveles bajos a medio de tráfico. Los clientes con altos niveles de uso sostenidos podrían ver una mayor variabilidad en la latencia de respuesta.

Azure niveles de uso de OpenAI están diseñados para proporcionar un rendimiento coherente para la mayoría de los clientes con niveles bajos y medio de tráfico. Cada nivel de uso define el rendimiento máximo (tokens por minuto) que puede esperar con una latencia predecible. Cuando el uso permanece dentro del nivel asignado, la latencia permanece estable y los tiempos de respuesta son coherentes.

¿Qué ocurre si supera el nivel de uso?

  • Si el rendimiento de la solicitud supera el nivel de uso (especialmente durante períodos de alta demanda), la latencia de respuesta puede aumentar significativamente.
  • La latencia puede variar y, en algunos casos, puede ser más de dos veces mayor que cuando se trabaja dentro del nivel de uso.
  • Esta variabilidad es más notable para los clientes con un uso sostenido elevado o patrones de tráfico de ráfaga.

Si encuentra errores 429 o observa una mayor variabilidad de latencia, esto es lo que debe hacer:

  • Solicitar un aumento de cuota: visite el portal de Azure para solicitar una cuota mayor para la suscripción.
  • Considere la posibilidad de actualizar a una oferta Premium (PTU): para cargas de trabajo críticas o de gran volumen, actualice a unidades de rendimiento aprovisionadas (PTU). PTU proporciona recursos dedicados, capacidad garantizada y latencia predecible, incluso a escala. Esta es la mejor opción para las aplicaciones críticas que requieren un rendimiento coherente.
  • Supervisión del uso: revise periódicamente las métricas de uso en el portal de Azure para asegurarse de que está trabajando dentro de los límites del nivel. Ajuste la carga de trabajo o la estrategia de implementación según sea necesario.

Puede recibir respuestas 429 (demasiadas solicitudes), incluso cuando las métricas de uso de tokens aparecen por debajo de la cuota.

Esto puede ocurrir en los escenarios siguientes:

  • Solicitudes rechazadas debido a límites de longitud de entrada o contexto (HTTP 400). Estas solicitudes no se facturan y pueden no aparecer en las métricas de uso de tokens, pero todavía pueden contar hacia la limitación de velocidad.
  • Las solicitudes evaluadas en función del posible uso de tokens (por ejemplo, max_tokens), incluso si no se generan tokens en última instancia.
  • Comportamiento de limitación de velocidad distribuida, donde el cumplimiento puede no ser perfectamente preciso o reflejarse inmediatamente en las métricas agregadas.

El límite de uso determina el nivel de uso por encima del cual los clientes podrían ver una mayor variabilidad en la latencia de respuesta. El uso de un cliente se define por modelo. Es el número total de tokens consumidos en todas las implementaciones de todas las suscripciones de todas las regiones de un inquilino determinado.

Nota

Los niveles de uso solo se aplican a los tipos de implementación Estándar, Estándar de zona de datos y Estándar global. Los niveles de uso no se aplican a las implementaciones globales de procesamiento por lotes y aprovisionadas.

Estándar global, estándar de zona de datos y estándar

Modelo Niveles de uso al mes
gpt-5 32 000 millones de tokens
gpt-5-mini 160 mil millones de tokens
gpt-5-nano 800 mil millones de tokens
gpt-5-chat 32 000 millones de tokens
gpt-4 + gpt-4-32k (todas las versiones) 6 mil millones de tokens
gpt-4o 12 mil millones de tokens
gpt-4o-mini 85 000 millones de tokens
o3-mini 50 000 millones de tokens
o1 4 mil millones de tokens
o4-mini 50 000 millones de tokens
o3 5 mil millones de tokens
gpt-4.1 30 000 millones de tokens
gpt-4.1-mini 150 mil millones de tokens
gpt-4.1-nano 550 mil millones de tokens

Procedimientos recomendados generales para permanecer dentro de los límites de velocidad

Para minimizar los problemas relacionados con los límites de velocidad, es recomendable usar las técnicas siguientes:

  • Implemente la lógica de reintento en la aplicación.
  • Evite cambios nítidos en la carga de trabajo. Aumente la carga de trabajo gradualmente.
  • Pruebe diferentes patrones de aumento de carga.
  • Aumente la cuota asignada a la implementación. Mueva la cuota de otra implementación, si es necesario.

Aumentos de la cuota de solicitudes

Envíe el formulario de solicitud quota para solicitar aumentos de cuota para Foundry Models vendidos directamente por Azure, Azure modelos openAI y modelos de Anthropic. Excepto los modelos de Anthropic, Models de asociados y comunidad no admiten aumentos de cuota.

Las solicitudes de aumento de cuota se procesan en el orden en que se reciben y la prioridad va a los clientes que usan activamente su asignación de cuota existente. Es posible que se denieguen las solicitudes que no cumplen esta condición.

Límites de capacidad de cuota regional

Puede ver la disponibilidad de cuota por región de la suscripción en el portal de Foundry.

Para ver la capacidad de cuota por región para un modelo o versión específicos, puede consultar la API de capacidad de la suscripción. Proporcione un subscriptionId, model_namey y model_version la API devuelvan la capacidad disponible para ese modelo en todas las regiones y tipos de implementación de la suscripción.

Nota

Actualmente, tanto el portal de Foundry como la información de cuota/capacidad de la API de capacidad devuelven la cuota o capacidad de los modelos que se retiran y ya no están disponibles.

Consulte la referencia de API.

Antes de ejecutar el ejemplo:

  • Instalar dependencias: pip install azure-identity requests
  • Inicie sesión con una identidad de Azure que pueda leer las capacidades del modelo para la suscripción.
import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))