Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Use este artículo para obtener información sobre los costos asociados a las unidades de rendimiento aprovisionadas (PTU). Para obtener información general sobre la oferta de rendimiento aprovisionado, consulte ¿Qué es el rendimiento aprovisionado?. Cuando esté listo para registrarse en la oferta de rendimiento provisionado, consulte la guía de introducción.
Nota
En los casos de uso de agentes y llamadas a funciones, el uso de tokens puede ser variable. Debe comprender en detalle su uso esperado de tokens por minuto (TPM) antes de migrar cargas de trabajo a PTU.
Unidades de rendimiento aprovisionadas
Las unidades de rendimiento aprovisionadas (PTU) son unidades genéricas de capacidad de procesamiento de modelos que pueden usarse para dimensionar las implementaciones aprovisionadas y lograr el rendimiento necesario para procesar peticiones y generar resultados. Las unidades de rendimiento aprovisionadas se conceden a una suscripción como cuota. Cada cuota es específica de una región y define el número máximo de PTUs que se pueden asignar a las implementaciones de esa suscripción y región.
Facturación del ancho de banda aprovisionado
Microsoft Foundry Rendimiento aprovisionado regional, Rendimiento aprovisionado de zona de datos y Rendimiento aprovisionado global se facturan cada hora en función del número de PTU desplegadas, con un descuento a plazo considerable que se ofrece a través de la compra de reservas de Azure.
El modelo de facturación por hora es útil para las necesidades de implementación a corto plazo, como validar nuevos modelos o adquirir capacidad para un hackathon. Sin embargo, los descuentos proporcionados por la reserva de Azure para Foundry Regional Provisioned, Data Zone Provisioned y Global Provisioned son considerables y la mayoría de los clientes con un uso coherente a largo plazo encontrarán un modelo reservado para ser una mejor propuesta de valor.
Azure reservas son una construcción de descuento financiero aplicada a los medidores de facturación, no a las interacciones del servicio (como la implementación). Las reservas y las implementaciones están acopladas de forma flexible para proporcionar flexibilidad. Puede crear o eliminar implementaciones y reservas de forma independiente. Este enfoque permite cambiar los recursos, las suscripciones o las implementaciones sin cambiar la construcción de facturación.
Orden recomendada de las operaciones para evitar cargos no deseados:
- Use Foundry para implementar el modelo en una región con cuota disponible. Este paso confirma que existe capacidad, ya que la cuota no es igual a la capacidad.
- Después de la implementación, comparta los detalles de implementación, incluido el tipo de implementación (aprovisionado global, aprovisionado de zona de datos o aprovisionado regional), región y suscripción, con el administrador.
- El administrador usa estos detalles para comprar una nueva reserva que coincida con los detalles de implementación o comprobar que una reserva existente coincide para recibir la tarifa con descuento.
Nota
Los clientes que Foundry ha aprovisionado antes de que se implementara la actualización de autoservicio de agosto utilizan un modelo de compra denominado modelo de compromiso de compra. Estos clientes pueden seguir usando este modelo de compra anterior junto con el modelo de compra por hora o reserva. El modelo de compromiso no está disponible para los nuevos clientes ni para determinados modelos nuevos introducidos después de agosto de 2024. Para obtener más información sobre el modelo de compra por compromiso y las opciones para la coexistencia y la migración, consulte la actualización aprovisionada de Foundry de agosto.
Cuota independiente del modelo
A diferencia de la cuota de Tokens Por Minuto (TPM) que utilizan otras ofertas de Foundry, los PTU son independientes del modelo. PTUs podrían usarse para desplegar cualquier modelo admitido hospedado y vendido directamente por Microsoft en la región.
La cuota de las implementaciones aprovisionadas se muestra en Foundry como los siguientes tipos de implementación: aprovisionado global, zona de datos aprovisionada y aprovisionado regional.
Nota
La cuota no garantiza la capacidad. Implemente el modelo en Foundry antes de comprar una reserva coincidente en el portal de Azure.
| Tipo de implementación | Nombre de cuota |
|---|---|
| Aprovisionado regional | Unidad de rendimiento aprovisionada regional |
| Aprovisionamiento global | Unidad global de rendimiento aprovisionado |
| Zona de datos aprovisionada | Unidad de rendimiento aprovisionado de zona de datos |
Puede encontrar detalles sobre la cuota de las implementaciones aprovisionadas en la sección Quota del portal Microsoft Foundry, sección Operate.
Uso por hora
Las implementaciones aprovisionadas a nivel regional, en zonas de datos y a nivel global se cobran a una tarifa por hora (USD/PTU/h) según el número de PTUs implementados. Por ejemplo, una implementación de 300 PTU se cobrará la tarifa por hora por 300. Todos los precios del modelo foundry están disponibles en la calculadora de precios de Azure.
Si un despliegue existe durante una parte de una hora, recibirá un cargo prorrateado en función de los minutos que estuvo desplegado durante la hora. Por ejemplo, una implementación que está activa durante los 15 minutos en el transcurso de una hora recibirá el cargo por hora reducido en 1/4.
Si se cambia el tamaño de la implementación, los costos de la implementación se ajustarán para que coincidan con el nuevo número de PTUs.
Pagar por implementaciones aprovisionadas a nivel regional, aprovisionadas a nivel de zona de datos y aprovisionadas a nivel global en base horaria es ideal para escenarios de implementación a corto plazo. Por ejemplo: Pruebas comparativas de calidad y rendimiento de nuevos modelos, o aumentar temporalmente la capacidad de PTU para cubrir un evento como un hackathon.
Los clientes que requieren un uso a largo plazo de implementaciones aprovisionadas regionales, de zona de datos y aprovisionadas globales, podrían pagar significativamente menos al mes mediante la compra de un descuento a plazo a través de Azure Reservations como se describe más adelante en el artículo.
Importante
No se recomienda escalar las implementaciones de producción según el tráfico entrante y pagarlas exclusivamente por horas. Hay dos razones para esto:
- El ahorro de costos logrado al comprar Azure Reservas para el rendimiento aprovisionado de Foundry, el aprovisionamiento de zona de datos y el aprovisionamiento global son significativos y, en muchos casos, será menos costoso mantener un tamaño de implementación para el volumen de producción completo pagado a través de una reserva de lo que sería escalar la implementación con tráfico entrante.
- Tener cuota aprovisionada sin usar (PTU) no garantiza que la capacidad esté disponible para admitir un aumento del tamaño de la implementación cuando sea necesario. La cuota limita el número máximo de PTU que se pueden implementar, pero no es una garantía de capacidad. La capacidad aprovisionada para cada región y modelo cambia dinámicamente a lo largo del día y es posible que no esté disponible cuando sea necesario. Como resultado, se recomienda mantener un despliegue permanente para cubrir las necesidades de tráfico (financiadas mediante una reserva).
Eliminación de implementaciones de PTU
Importante
Los cargos por las implementaciones en un recurso eliminado continuarán generándose hasta que se purgue el recurso. Para evitar cargos no deseados, elimine la implementación de un recurso antes de eliminar el recurso. Sin embargo, si ya eliminó primero el recurso, puede recuperarlo o purgarlo. Para obtener más información, consulte recuperar o purgar recursos de Azure OpenAI eliminados.
Eliminar una implementación no cancela ni modifica ninguna reserva de PTU. Las reservas no permiten su eliminación. Puede usar el portal de Azure para cancelar o intercambiar reservas manualmente, y estas opciones pueden incurrir en cargos adicionales.
Para evitar cargos no deseados, siga estos pasos para eliminar una implementación provisionada.
- Elimine la implementación en el portal Microsoft Foundry.
- Si planea quitar el recurso de inteligencia artificial de Azure, elimine primero las implementaciones y, a continuación, elimine el recurso. Purgar el recurso para detener los cargos.
- Vaya a la página Reservations del portal de Azure para administrar las reservas. En el portal de Azure, puede comprar, cancelar o intercambiar reservas para alinearse con las implementaciones actuales.
Cantidad de rendimiento por PTU que se obtiene para cada modelo
La cantidad de rendimiento (medida en tokens por minuto o TPM) que obtiene una implementación por PTU es una función de los tokens de entrada y salida en un minuto determinado. La generación de tokens de salida requiere más procesamiento que los tokens de entrada. A partir de los modelos GPT 4.1 y versiones posteriores, el sistema suele coincidir con la relación de precios estándar global entre los tokens de entrada y salida, con excepciones para algunos modelos. Para todas las implementaciones, los tokens almacenados en caché se deducen 100% del uso.
Por ejemplo, para gpt-5, un token de salida equivale a ocho tokens de entrada en su límite de uso, lo que es acorde al precio. Para otros modelos, como gpt-4.1, un token de salida cuenta como cuatro tokens de entrada. Los modelos más antiguos usan una relación diferente.
Excepciones a la relación de rendimiento de entrada y salida
El sistema permite excepciones a la relación estándar de token de entrada a salida para determinados modelos. Por ejemplo, con Llama-3.3-70B-Instruct, un token de salida cuenta como cuatro tokens de entrada para el límite de uso. Esta relación difiere de la relación de precios estándar global entre los tokens de entrada y salida. Para ver los precios de input y output del modelo, consulte Precios para los modelos Llama.
Modelos Azure OpenAI más recientes
Nota
gpt-5.4, gpt-4.1, gpt-4.1-mini y gpt-4.1-nano no admiten contexto largo (las solicitudes estimadas con más de 128k tokens de aviso).
| Tema | gpt-5.5 | gpt-5.4 | gpt-5.3-codex | gpt-5.2 | gpt-5.2-codex | gpt-5.1 | gpt-5.1-codex | gpt-5 | gpt-5-mini | gpt-4.1 | gpt-4.1-mini | gpt-4.1-nano | o3 | o4-mini |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Implementación mínima aprovisionada de la zona global y de datos | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 |
| Incremento de escala aprovisionada en la zona global y de datos | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 |
| Implementación mínima aprovisionada regional | 50 | 50 | 50 | 50 | 50 | 50 | 50 | 50 | 25 | 50 | 25 | 25 | 50 | 25 |
| Incremento regional de la escala aprovisionada | 50 | 50 | 50 | 50 | 50 | 50 | 50 | 50 | 25 | 50 | 25 | 25 | 50 | 25 |
| TPM de entrada por PTU | 1,200 | 2,400 | 3,400 | 3,400 | 3,400 | 4,750 | 4,750 | 4,750 | 23.750 | 3,000 | 14,900 | 59.400 | 3,000 | 5,400 |
| Valor objetivo de latencia | 99% > 100 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 80 tokens por segundo* | 99% > 80 tokens por segundo* | 99% > 90 tokens por segundo* | 99% > 100 tokens por segundo* | 99% > 80 tokens por segundo* | 99% > 90 tokens por segundo* |
* Se calcula como latencia de solicitud p50 por cada 5 minutos.
Modelos anteriores Azure OpenAI
| Tema | gpt-4o | gpt-4o-mini | o3-mini | o1 |
|---|---|---|---|---|
| Implementación mínima aprovisionada de la zona global y de datos | 15 | 15 | 15 | 15 |
| Incremento de escala aprovisionada en la zona global y de datos | 5 | 5 | 5 | 5 |
| Implementación mínima aprovisionada regional | 50 | 25 | 25 | 25 |
| Incremento regional de la escala aprovisionada | 50 | 25 | 25 | 50 |
| TPM de entrada por PTU | 2,500 | 37,000 | 2,500 | 230 |
| Valor objetivo de latencia | 99% > 25 tokens por segundo* | 99% > 33 tokens por segundo* | 99% > 66 tokens por segundo* | 99% > 25 tokens por segundo* |
* Se calcula como la latencia media de la solicitud por minuto a lo largo del mes.
Directo desde modelos de Azure
| Tema | Llama-3.3-70B-Instruct | DeepSeek-R1 | DeepSeek-V3-0324 | DeepSeek-R1-0528 |
|---|---|---|---|---|
| Implementación mínima aprovisionada de la zona global y de datos | 100 | 100 | 100 | 100 |
| Incremento de escala aprovisionada en la zona global y de datos | 100 | 100 | 100 | 100 |
| Implementación mínima aprovisionada regional | NA | NA | NA | NA |
| Incremento regional de la escala aprovisionada | NA | NA | NA | NA |
| TPM de entrada por PTU | 8.4501 | 4,000 | 4,000 | 4,000 |
| Valor objetivo de latencia | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* |
* Se calcula como la latencia media de la solicitud por minuto a lo largo del mes.
1 Para Llama-3.3-70B-Instruct, un token de salida cuenta como cuatro tokens de entrada para el límite de uso. Esta relación difiere de la relación de precios estándar global entre los tokens de entrada y salida. Para más información, consulte Excepciones a la relación de rendimiento de entrada y salida.
Fuegos artificiales en modelos Microsoft Foundry (versión preliminar)
Los siguientes modelos de Foundry de Microsoft actualmente admiten ancho de banda aprovisionado.
| Tema | gpt-oss-120b | Kimi K2 Indica 0905 | Kimi K2 Thinking | Kimi K2.5 | DeepSeek v3.1 | DeepSeek v3.2 | Qwen3 14B | MiniMax 2.5 | GLM-5 | GLM-4.7 |
|---|---|---|---|---|---|---|---|---|---|---|
| Implementación mínima aprovisionada de la zona global y de datos | 80 | 500 | 500 | 800 | 800 | 1200 | 80 | 400 | 700 | 800 |
| Incremento de escala aprovisionada en la zona global y de datos | 40 | 275 | 275 | 400 | 400 | 600 | 40 | 200 | 350 | 400 |
| TPM de entrada por PTU | 13,500 | 1,250 | 700 | 530 | 1,050 | 1,500 | 4,800 | 3,000 | 3,500 | 3,000 |
| Valor objetivo de latencia | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* |
* Se calcula como la latencia media de la solicitud por minuto a lo largo del mes.
Determinación de los requisitos de PTU para una carga de trabajo
Determinar el número correcto de unidades de rendimiento aprovisionadas (PTU) para la carga de trabajo es un paso esencial para optimizar el rendimiento y el costo.
Las PTU representan una cantidad de capacidad de procesamiento de modelos. De forma similar al equipo o las bases de datos, diferentes cargas de trabajo o solicitudes al modelo consumirán diferentes cantidades de capacidad de procesamiento subyacente. La conversión del rendimiento a las PTU se puede aproximar utilizando datos históricos de uso de tokens o estimaciones de patrones de llamadas (tokens de entrada, tokens de salida y solicitudes por minuto), como se describe en la documentación de rendimiento y latencia.
Algunas consideraciones generales:
- Las generaciones requieren más capacidad que las indicaciones
- Para los modelos GPT-4o y versiones posteriores, el TPM por PTU se establece por separado para los tokens de entrada y salida. En el caso de los modelos más antiguos, las solicitudes más grandes son progresivamente más caras de computar. Por ejemplo, 100 llamadas con un tamaño de solicitud de 1000 tokens requieren menos capacidad que una llamada con 100.000 tokens en la solicitud. La jerarquización significa que la distribución de estas formas de llamada es importante en el rendimiento total. Los patrones de tráfico con una distribución amplia que incluye algunas invocaciones de gran tamaño pueden experimentar un menor rendimiento por PTU que una distribución más estrecha con los mismos tamaños promedios de tokens de entrada y finalización.
Obtención de la cuota de participación en utilidades (PTU)
Los clientes deben solicitar cuota a través del vínculo Solicitar cuota.
Si se requieren más cuotas, también debe solicitar cuota a través del vínculo en la sección Microsoft FoundryOperate>Quota. El formulario permite al cliente solicitar un aumento en la cuota de PTU especificada para una región determinada. El cliente recibe un correo electrónico en la dirección incluida una vez aprobada la solicitud, normalmente en dos días laborables.
Mínimos de PTU por modelo
La capacidad mínima de implementación, incrementos y procesamiento de PTU asociada a cada unidad varía según el tipo de modelo y la versión. Consulte la tabla anterior para obtener más información.
Azure Reservas para el rendimiento aprovisionado de Foundry
Los descuentos sobre el precio de uso por hora se pueden obtener mediante la compra de una reserva de Azure para el aprovisionamiento regional de Foundry, el aprovisionamiento de zona de datos y el aprovisionamiento global. Una reserva de Azure es un mecanismo de descuento a plazo compartido por muchos productos Azure. Por ejemplo, Compute y Cosmos DB. En el caso de Foundry Regional Provisioned, Data Zone Provisioned y Global Provisioned, la reserva proporciona un descuento a cambio de confirmar el pago de un número fijo de PTUs durante un período de un mes o un año.
Azure Reservas se adquieren a través de la página Reservations del portal de Azure.
Las reservas se adquieren de forma regional y pueden tener un ámbito flexible para cubrir el uso de un grupo de implementaciones. Los ámbitos de reserva incluyen:
Grupos de recursos individuales o suscripciones
Un grupo de suscripciones en un grupo de gestión
Todas las suscripciones de una cuenta de facturación
El descuento se aplica cuando el tipo de implementación (regional,zona de datos/global), región y ámbito de reserva (suscripción o grupo de recursos) coinciden con la implementación en ejecución. La coincidencia no es mediante el modelo o el identificador de implementación. Varias implementaciones dentro del ámbito pueden consumir la misma reserva hasta su cantidad de PTU.
Se pueden comprar nuevas reservas para cubrir la misma cobertura que las reservas existentes, con el fin de ofrecer descuentos en las nuevas implementaciones provisionadas. El ámbito de las reservas existentes también se puede actualizar en cualquier momento sin penalización, por ejemplo, para cubrir una nueva suscripción.
Las reservas para implementaciones globales, de zona de datos y regionales no son intercambiables. Debe comprar una reserva independiente para cada tipo de implementación.
Las reservas se pueden cancelar después de la compra, pero los créditos están limitados.
Si el tamaño de las implementaciones aprovisionadas dentro del ámbito de una reserva supera la cantidad de la reserva, el exceso se cobra según la tarifa horaria. Por ejemplo, si las implementaciones que ascienden a 250 PTUs existen dentro del ámbito de una reserva de 200 PTU, se cobrarán 50 PTUs cada hora hasta que los tamaños de implementación se reduzcan a 200 PTUs o se cree una nueva reserva para cubrir los 50 restantes.
Las reservas garantizan un precio con descuento para el período seleccionado. No reservan capacidad en el servicio ni garantizan que estará disponible cuando se cree una implementación. Se recomienda encarecidamente que los clientes creen implementaciones antes de comprar una reserva para protegerse frente a la compra excesiva de una reserva.
Importante
La disponibilidad de la capacidad para las implementaciones de modelos es dinámica y cambia con frecuencia entre regiones y modelos. Para protegerse contra la compra de una reserva para más PTUs de las que puede usar, cree primero las implementaciones y, a continuación, compre la reserva de Azure para cubrir las PTUs que ha implementado. Este procedimiento recomendado garantizará que pueda aprovechar al máximo el descuento por reserva y le protege de comprometerse a una reserva que no pueda usar.
Los requisitos de la política de inquilino y el rol de Azure para comprar una reserva son diferentes de los necesarios para crear una implementación o un recurso de Foundry. Compruebe la autorización para comprar reservas con antelación de la necesidad de hacerlo. Consulte Reserva de rendimiento aprovisionado de Foundry para obtener más detalles.
Ajusta la reserva de rendimiento aprovisionado de Foundry
Los importes de PTU en las compras de reservas son independientes de las PTUs asignadas en la cuota o usadas en las implementaciones. Es posible comprar una reserva para más PTU de las que tiene en la cuota o puede implementarse para la región, el modelo o la versión deseados. Los créditos por sobrecompra de una reserva son limitados, y los clientes deben tomar medidas para asegurarse de que mantienen sus tamaños de reserva de acuerdo con las PTU que tienen implementadas.
El procedimiento recomendado es siempre comprar una reserva después de que se hayan creado las implementaciones. Esto protege contra la compra de una reserva y, a continuación, averiguar que la capacidad necesaria no está disponible para la región o el modelo deseados.
Las reservas para implementaciones globales, de zona de datos y regionales no son intercambiables. Debe comprar una reserva independiente para cada tipo de implementación.
Administración de reservas de Azure
Una vez creada una reserva, supervisela a través del portal de reserva de Azure o Azure Monitor para asegurarse de que la reserva recibe el uso esperado. Para más información sobre la administración y supervisión de reservas de Azure, consulte estos artículos:
- Ver el uso de reservas de Azure
- Ver transacciones de compra y reembolso de reservas de Azure
- Visualización de los costos de beneficios amortizados
- Impute los costos de reserva de Azure
- Renovar automáticamente las reservas de Azure
Contenido relacionado
- Guía de introducción de las unidades de rendimiento aprovisionadas (PTU)
- Conceptos de unidades de rendimiento aprovisionadas (PTU)
- Documentación de reserva de rendimiento aprovisionado
- Rendimiento y latencia
- Tipos de implementación
- Actualizaciones de ofertas gestionadas aprovisionadas de Azure OpenAI