Aplicación de límites de token para modelos

Microsoft Foundry Control Plane aplica límites de tasa de tokens por minuto (TPM) y cuotas totales de tokens para las implementaciones de modelos en el ámbito del proyecto. La ejecución de estas medidas evita el consumo de tokens descontrolado y alinea el uso con las directrices organizacionales. Foundry Control Plane se integra con los gateways de IA para proporcionar una aplicación avanzada de políticas para los modelos.

En este artículo se explica cómo configurar la limitación de velocidad de tokens y las cuotas de tokens.

Requisitos previos

Una cuenta de Azure con una suscripción activa. Si no tiene una, cree una cuenta de free Azure, que incluye una suscripción de evaluación gratuita.
Un recurso Foundry con una puerta de enlace de IA configurada. Obtenga más información sobre cómo habilitar una puerta de enlace IA para un recurso Foundry.
Un proyecto Foundry con un modelo desplegado y agregado a la puerta de enlace de IA que fue configurada. Para habilitar una puerta de enlace de IA para un proyecto, necesita el rol API Management Service Contributor (o Owner) en el recurso Azure API Management.

Comprender las puertas de enlace de IA

Cuando se utiliza una puerta de enlace de IA con el Plano de Control Foundry para proporcionar la aplicación avanzada de políticas para los modelos, la puerta de enlace de IA se sitúa entre los clientes y las implementaciones de modelos. Hace que todas las solicitudes fluyan a través de la instancia de API Management asociada a ella.

Los límites se aplican en el nivel de proyecto. Es decir, cada proyecto puede tener sus propios ajustes de TPM y de cuota.

Use una puerta de enlace de IA para:

Contención de tokens de múltiples equipos (evitar que un proyecto monopolice la capacidad).
Control de costos limitando el uso agregado.
Límites de cumplimiento para cargas de trabajo reguladas (aplicar límites de uso predecibles).

Configuración de límites de token

Puede configurar límites de token para implementaciones de modelos específicas dentro de los proyectos:

Inicie sesión en Microsoft Foundry. Asegúrese de que el interruptor New Foundry esté activado. Estos pasos hacen referencia a Foundry (new).
Seleccione Operar>administrador.
En la lista Puerta de enlace de AI , seleccione la puerta de enlace que desea usar.
En el panel de detalles de la puerta de enlace que aparece, seleccione Administración de tokens.
Seleccione + Establecer límite para crear un nuevo límite para una implementación de modelos.
Seleccione el proyecto y la implementación que desea restringir y escriba un valor para Limit (Token-per-minute).
Seleccione Crear para guardar los cambios.

Entender las ventanas de cuota

Los límites de token tienen dos dimensiones de cumplimiento complementarias:

Límite de velocidad de TPM: limita el consumo de tokens a un máximo configurado por minuto. Cuando las solicitudes superan el límite de TPM, el autor de la llamada recibe un 429 Too Many Requests código de estado de respuesta.
Cuota total de tokens: limita el consumo de tokens a un máximo configurado por período de cuota (por ejemplo, cada hora, diaria, semanal, mensual o anual). Cuando las solicitudes superan la cuota, el autor de la llamada recibe un 403 Forbidden código de estado de respuesta.

Si envía muchas solicitudes simultáneamente, el consumo de tokens puede superar temporalmente los límites configurados hasta que se procesen las respuestas.

Ajustar una cuota o un valor de TPM afecta a las decisiones posteriores de cumplimiento.

Para obtener más información, consulte AI gateway in Azure API Management and Limit large language model API token usage.

Comprobación de la aplicación

Envíe solicitudes de prueba a un punto de conexión de implementación de modelo mediante la dirección URL y la clave de la puerta de enlace del proyecto.
Aumente gradualmente la frecuencia de solicitud hasta que se desencadene el límite de TPM.
Realice un seguimiento de los tokens acumulados hasta que se desencadene la cuota.
Valide que:
- 429 Too Many Requests (respuesta limitada por velocidad) se devuelve cuando las solicitudes superan el límite de TPM.
- 403 Forbidden (error de cuota) se devuelve cuando las solicitudes agotan la cuota.

Ajustar los límites

Vuelva a la configuración de AI Gateway del proyecto.
Modifique los valores de TPM o cuota.
Guarde los cambios. Los nuevos límites se aplican inmediatamente a las solicitudes posteriores.

Solución de problemas

Problema	Causa posible	Acción
La instancia de API Management no aparece	Retraso de aprovisionamiento	Actualice después de unos minutos.
No se aplican límites	Configuración incorrecta o proyecto no vinculado	Vuelva a abrir los ajustes y confirme que el interruptor de aplicación está activado. Confirme que la puerta de enlace de IA está habilitada para el proyecto y que están configurados los límites correctos.
La latencia es alta después de la habilitación	Error de coincidencia de región o inicio en frío de API Management	Compruebe la región de API Management frente a la región de recursos. Llame directamente al modelo y compare el resultado con la llamada a través de la puerta de enlace de IA para identificar si los problemas de rendimiento están relacionados con la puerta de enlace.

Si la consola de administración es lenta, vuelva a intentarlo después de un breve intervalo.

Pasarela de IA en la Gestión de API de Azure
¿Qué es Azure API Management?
Limitar el uso de tokens en la API de modelos de lenguaje extensos
Cómo usar el control de acceso basado en rol en Azure API Management
control de acceso basado en roles para Microsoft Foundry

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-29