Aplicación de límites de token para modelos

Microsoft Foundry Control Plane aplica límites de tasa de tokens por minuto (TPM) y cuotas totales de tokens para las implementaciones de modelos en el ámbito del proyecto. La ejecución de estas medidas evita el consumo de tokens descontrolado y alinea el uso con las directrices organizacionales. Foundry Control Plane se integra con los gateways de IA para proporcionar una aplicación avanzada de políticas para los modelos.

En este artículo se explica cómo configurar la limitación de velocidad de tokens y las cuotas de tokens.

Requisitos previos

Comprender las puertas de enlace de IA

Cuando se utiliza una puerta de enlace de IA con el Plano de Control Foundry para proporcionar la aplicación avanzada de políticas para los modelos, la puerta de enlace de IA se sitúa entre los clientes y las implementaciones de modelos. Hace que todas las solicitudes fluyan a través de la instancia de API Management asociada a ella.

Los límites se aplican en el nivel de proyecto. Es decir, cada proyecto puede tener sus propios ajustes de TPM y de cuota.

Diagrama del flujo lógico de solicitudes de cliente que pasan por Azure API Management como puerta de enlace de IA antes de llegar a implementaciones de modelos dentro de un proyecto.

Use una puerta de enlace de IA para:

  • Contención de tokens de múltiples equipos (evitar que un proyecto monopolice la capacidad).
  • Control de costos limitando el uso agregado.
  • Límites de cumplimiento para cargas de trabajo reguladas (aplicar límites de uso predecibles).

Configuración de límites de token

Puede configurar límites de token para implementaciones de modelos específicas dentro de los proyectos:

  1. Inicie sesión en Microsoft Foundry. Asegúrese de que el interruptor New Foundry esté activado. Estos pasos hacen referencia a Foundry (new).

  2. Seleccione Operar>administrador.

  3. En la lista Puerta de enlace de AI , seleccione la puerta de enlace que desea usar.

  4. En el panel de detalles de la puerta de enlace que aparece, seleccione Administración de tokens.

  5. Seleccione + Establecer límite para crear un nuevo límite para una implementación de modelos.

  6. Seleccione el proyecto y la implementación que desea restringir y escriba un valor para Limit (Token-per-minute).

  7. Seleccione Crear para guardar los cambios.

Captura de pantalla del panel de configuración del proyecto que muestra cuadros de entrada para tokens por minuto y límites de cuota de tokens totales.

Entender las ventanas de cuota

Los límites de token tienen dos dimensiones de cumplimiento complementarias:

  • Límite de velocidad de TPM: limita el consumo de tokens a un máximo configurado por minuto. Cuando las solicitudes superan el límite de TPM, el autor de la llamada recibe un 429 Too Many Requests código de estado de respuesta.

  • Cuota total de tokens: limita el consumo de tokens a un máximo configurado por período de cuota (por ejemplo, cada hora, diaria, semanal, mensual o anual). Cuando las solicitudes superan la cuota, el autor de la llamada recibe un 403 Forbidden código de estado de respuesta.

Si envía muchas solicitudes simultáneamente, el consumo de tokens puede superar temporalmente los límites configurados hasta que se procesen las respuestas.

Ajustar una cuota o un valor de TPM afecta a las decisiones posteriores de cumplimiento.

Para obtener más información, consulte AI gateway in Azure API Management and Limit large language model API token usage.

Comprobación de la aplicación

  1. Envíe solicitudes de prueba a un punto de conexión de implementación de modelo mediante la dirección URL y la clave de la puerta de enlace del proyecto.

  2. Aumente gradualmente la frecuencia de solicitud hasta que se desencadene el límite de TPM.

  3. Realice un seguimiento de los tokens acumulados hasta que se desencadene la cuota.

  4. Valide que:

    • 429 Too Many Requests (respuesta limitada por velocidad) se devuelve cuando las solicitudes superan el límite de TPM.
    • 403 Forbidden (error de cuota) se devuelve cuando las solicitudes agotan la cuota.

Ajustar los límites

  1. Vuelva a la configuración de AI Gateway del proyecto.

  2. Modifique los valores de TPM o cuota.

  3. Guarde los cambios. Los nuevos límites se aplican inmediatamente a las solicitudes posteriores.

Solución de problemas

Problema Causa posible Acción
La instancia de API Management no aparece Retraso de aprovisionamiento Actualice después de unos minutos.
No se aplican límites Configuración incorrecta o proyecto no vinculado Vuelva a abrir los ajustes y confirme que el interruptor de aplicación está activado. Confirme que la puerta de enlace de IA está habilitada para el proyecto y que están configurados los límites correctos.
La latencia es alta después de la habilitación Error de coincidencia de región o inicio en frío de API Management Compruebe la región de API Management frente a la región de recursos. Llame directamente al modelo y compare el resultado con la llamada a través de la puerta de enlace de IA para identificar si los problemas de rendimiento están relacionados con la puerta de enlace.

Si la consola de administración es lenta, vuelva a intentarlo después de un breve intervalo.