Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Microsoft Foundry Control Plane aplica límites de tasa de tokens por minuto (TPM) y cuotas totales de tokens para las implementaciones de modelos en el ámbito del proyecto. La ejecución de estas medidas evita el consumo de tokens descontrolado y alinea el uso con las directrices organizacionales. Foundry Control Plane se integra con los gateways de IA para proporcionar una aplicación avanzada de políticas para los modelos.
En este artículo se explica cómo configurar la limitación de velocidad de tokens y las cuotas de tokens.
Requisitos previos
-
Una cuenta de Azure con una suscripción activa. Si no tiene una, cree una cuenta de free Azure, que incluye una suscripción de evaluación gratuita.
Un recurso Foundry con una puerta de enlace de IA configurada. Obtenga más información sobre cómo habilitar una puerta de enlace IA para un recurso Foundry.
Un proyecto Foundry con un modelo desplegado y agregado a la puerta de enlace de IA que fue configurada. Para habilitar una puerta de enlace de IA para un proyecto, necesita el rol API Management Service Contributor (o Owner) en el recurso Azure API Management.
Comprender las puertas de enlace de IA
Cuando se utiliza una puerta de enlace de IA con el Plano de Control Foundry para proporcionar la aplicación avanzada de políticas para los modelos, la puerta de enlace de IA se sitúa entre los clientes y las implementaciones de modelos. Hace que todas las solicitudes fluyan a través de la instancia de API Management asociada a ella.
Los límites se aplican en el nivel de proyecto. Es decir, cada proyecto puede tener sus propios ajustes de TPM y de cuota.
Use una puerta de enlace de IA para:
- Contención de tokens de múltiples equipos (evitar que un proyecto monopolice la capacidad).
- Control de costos limitando el uso agregado.
- Límites de cumplimiento para cargas de trabajo reguladas (aplicar límites de uso predecibles).
Configuración de límites de token
Puede configurar límites de token para implementaciones de modelos específicas dentro de los proyectos:
-
Inicie sesión en Microsoft Foundry. Asegúrese de que el interruptor New Foundry esté activado. Estos pasos hacen referencia a Foundry (new).
Seleccione Operar>administrador.
En la lista Puerta de enlace de AI , seleccione la puerta de enlace que desea usar.
En el panel de detalles de la puerta de enlace que aparece, seleccione Administración de tokens.
Seleccione + Establecer límite para crear un nuevo límite para una implementación de modelos.
Seleccione el proyecto y la implementación que desea restringir y escriba un valor para Limit (Token-per-minute).
Seleccione Crear para guardar los cambios.
Entender las ventanas de cuota
Los límites de token tienen dos dimensiones de cumplimiento complementarias:
Límite de velocidad de TPM: limita el consumo de tokens a un máximo configurado por minuto. Cuando las solicitudes superan el límite de TPM, el autor de la llamada recibe un
429 Too Many Requestscódigo de estado de respuesta.Cuota total de tokens: limita el consumo de tokens a un máximo configurado por período de cuota (por ejemplo, cada hora, diaria, semanal, mensual o anual). Cuando las solicitudes superan la cuota, el autor de la llamada recibe un
403 Forbiddencódigo de estado de respuesta.
Si envía muchas solicitudes simultáneamente, el consumo de tokens puede superar temporalmente los límites configurados hasta que se procesen las respuestas.
Ajustar una cuota o un valor de TPM afecta a las decisiones posteriores de cumplimiento.
Para obtener más información, consulte AI gateway in Azure API Management and Limit large language model API token usage.
Comprobación de la aplicación
Envíe solicitudes de prueba a un punto de conexión de implementación de modelo mediante la dirección URL y la clave de la puerta de enlace del proyecto.
Aumente gradualmente la frecuencia de solicitud hasta que se desencadene el límite de TPM.
Realice un seguimiento de los tokens acumulados hasta que se desencadene la cuota.
Valide que:
-
429 Too Many Requests(respuesta limitada por velocidad) se devuelve cuando las solicitudes superan el límite de TPM. -
403 Forbidden(error de cuota) se devuelve cuando las solicitudes agotan la cuota.
-
Ajustar los límites
Vuelva a la configuración de AI Gateway del proyecto.
Modifique los valores de TPM o cuota.
Guarde los cambios. Los nuevos límites se aplican inmediatamente a las solicitudes posteriores.
Solución de problemas
| Problema | Causa posible | Acción |
|---|---|---|
| La instancia de API Management no aparece | Retraso de aprovisionamiento | Actualice después de unos minutos. |
| No se aplican límites | Configuración incorrecta o proyecto no vinculado | Vuelva a abrir los ajustes y confirme que el interruptor de aplicación está activado. Confirme que la puerta de enlace de IA está habilitada para el proyecto y que están configurados los límites correctos. |
| La latencia es alta después de la habilitación | Error de coincidencia de región o inicio en frío de API Management | Compruebe la región de API Management frente a la región de recursos. Llame directamente al modelo y compare el resultado con la llamada a través de la puerta de enlace de IA para identificar si los problemas de rendimiento están relacionados con la puerta de enlace. |
Si la consola de administración es lenta, vuelva a intentarlo después de un breve intervalo.
Contenido relacionado
- Pasarela de IA en la Gestión de API de Azure
- ¿Qué es Azure API Management?
- Limitar el uso de tokens en la API de modelos de lenguaje extensos
- Cómo usar el control de acceso basado en rol en Azure API Management
- control de acceso basado en roles para Microsoft Foundry