Imposer des limites de jetons pour les modèles

Microsoft Plan de contrôle Foundry applique des limites de taux de jetons par minute (TPM) et des quotas de jetons totaux pour les déploiements de modèles au niveau de l’étendue du projet. Cette mesure empêche la consommation incontrôlée de jetons et aligne leur utilisation avec les garde-fous de l’organisation. Foundry Control Plane s’intègre aux passerelles IA pour fournir une application avancée des stratégies pour les modèles.

Cet article explique comment configurer la limitation du débit de jetons et les quotas de jetons.

Conditions préalables

Comprendre les passerelles IA

Lorsque vous utilisez une passerelle IA avec Foundry Control Plane pour fournir une application avancée des stratégies pour les modèles, la passerelle IA se trouve entre les clients et les déploiements de modèles. Elle effectue tous les flux de requêtes via l’instance Gestion des API associée.

Les limites s’appliquent au niveau du projet. Autrement dit, chaque projet peut avoir ses propres paramètres TPM et de quota.

Diagram du flux logique des requêtes clientes passant par Gestion des API Azure en tant que passerelle IA avant d’atteindre des déploiements de modèles dans un projet.

Utilisez une passerelle IA pour :

  • La gestion des jetons par plusieurs équipes (afin d'empêcher qu'un projet monopolise la capacité).
  • Contrôle des coûts en limitant l’utilisation agrégée.
  • Limites de conformité pour les charges de travail réglementées (appliquer des plafonds d’utilisation prévisibles).

Configurer des limites de jetons

Vous pouvez configurer des limites de jetons pour des déploiements de modèles spécifiques au sein de vos projets :

  1. Connectez-vous à Microsoft Foundry. Vérifiez que le commutateur New Foundry est activé. Ces étapes font référence à Foundry (nouveau).

  2. Sélectionnez Exécuter>Admin.

  3. Dans la liste des passerelles IA , sélectionnez la passerelle que vous souhaitez utiliser.

  4. Dans le volet d’informations de la passerelle qui s’affiche, sélectionnez Gestion des jetons.

  5. Sélectionnez + Définir la limite pour créer une nouvelle limite pour un déploiement de modèle.

  6. Sélectionnez le projet et le déploiement que vous souhaitez restreindre, puis entrez une valeur de limite (jeton par minute).

  7. Sélectionnez Créer pour enregistrer vos modifications.

Capture d’écran du volet paramètres du projet montrant les zones d’entrée pour les jetons par minute et les limites totales de quota de jetons.

Comprendre les fenêtres de quota

Les limites de jeton ont deux dimensions d’application complémentaires :

  • Limite du taux TPM : limite la consommation de jetons à un maximum configuré par minute. Lorsque les requêtes dépassent la limite TPM, l’appelant reçoit un code d’état 429 Too Many Requests de réponse.

  • Quota total de jetons : limite la consommation de jetons à un maximum configuré par période de quota (par exemple, horaire, quotidien, hebdomadaire, mensuel ou annuel). Lorsque les requêtes dépassent le quota, l’appelant reçoit un code d’état 403 Forbidden de réponse.

Si vous envoyez plusieurs requêtes simultanément, la consommation de jetons peut dépasser temporairement les limites configurées jusqu’à ce que les réponses soient traitées.

L’ajustement d’un quota ou d’une valeur TPM affecte les décisions d’application suivantes.

Pour plus d’informations, consultez la passerelle d'IA dans Gestion des API Azure et Limiter l’utilisation des jetons d’API de grandes modèles de langage.

Vérifier l’application

  1. Envoyez des demandes de test à un point de terminaison de déploiement de modèle à l’aide de l’URL et de la clé de passerelle du projet.

  2. Augmentez progressivement la fréquence des requêtes jusqu’à ce que les déclencheurs de limite de module de plateforme sécurisée (TPM) se déclenchent.

  3. Suivez les jetons cumulatifs jusqu’à ce que le quota se déclenche.

  4. Vérifiez que :

    • 429 Too Many Requests (réponse limitée par débit) est retournée lorsque les requêtes dépassent la limite TPM.
    • 403 Forbidden (erreur de quota) est retournée lorsque les demandes épuisent le quota.

Ajuster les limites

  1. Revenez aux paramètres de la passerelle AI Gateway du projet.

  2. Modifiez les valeurs de TPM ou de quota.

  3. Enregistrez les modifications. Les nouvelles limites s’appliquent immédiatement aux demandes suivantes.

Dépanner

Problème Cause possible Action
L’instance Gestion des API n’apparaît pas Délai d’approvisionnement Actualisez après quelques minutes.
Les limites ne sont pas appliquées Configuration incorrecte ou projet non lié Rouvrez les paramètres et confirmez que le bouton d'activation de l'application est activé. Vérifiez que la passerelle IA est activée pour le projet et que les limites correctes sont configurées.
La latence est élevée après l’activation Démarrage à froid de l'API Management ou non-correspondance de la région Vérifiez la région Gestion des API par rapport à la région de ressource. Appelez le modèle directement et comparez le résultat à l’appel proxié via la passerelle IA pour identifier si les problèmes de performances sont liés à la passerelle.

Si la console d’administration est lente, réessayez après un bref intervalle.