Imposer des limites de jetons pour les modèles

Microsoft Plan de contrôle Foundry applique des limites de taux de jetons par minute (TPM) et des quotas de jetons totaux pour les déploiements de modèles au niveau de l’étendue du projet. Cette mesure empêche la consommation incontrôlée de jetons et aligne leur utilisation avec les garde-fous de l’organisation. Foundry Control Plane s’intègre aux passerelles IA pour fournir une application avancée des stratégies pour les modèles.

Cet article explique comment configurer la limitation du débit de jetons et les quotas de jetons.

Conditions préalables

Un compte Azure avec un abonnement actif. Si vous n'en avez pas, créez un compte Azure gratuit, qui inclut un abonnement d'essai gratuit.
Ressource Foundry avec une passerelle IA configurée. En savoir plus sur l’activation d’une passerelle IA pour une ressource Foundry.
Projet Foundry avec un modèle qui a été déployé et intégré à la passerelle IA configurée. Pour activer une passerelle IA pour un projet, vous avez besoin du rôle Contributeur du service de gestionAPI (ou Owner) sur la ressource Gestion des API Azure.

Comprendre les passerelles IA

Lorsque vous utilisez une passerelle IA avec Foundry Control Plane pour fournir une application avancée des stratégies pour les modèles, la passerelle IA se trouve entre les clients et les déploiements de modèles. Elle effectue tous les flux de requêtes via l’instance Gestion des API associée.

Les limites s’appliquent au niveau du projet. Autrement dit, chaque projet peut avoir ses propres paramètres TPM et de quota.

Utilisez une passerelle IA pour :

La gestion des jetons par plusieurs équipes (afin d'empêcher qu'un projet monopolise la capacité).
Contrôle des coûts en limitant l’utilisation agrégée.
Limites de conformité pour les charges de travail réglementées (appliquer des plafonds d’utilisation prévisibles).

Configurer des limites de jetons

Vous pouvez configurer des limites de jetons pour des déploiements de modèles spécifiques au sein de vos projets :

Connectez-vous à Microsoft Foundry. Vérifiez que le commutateur New Foundry est activé. Ces étapes font référence à Foundry (nouveau).
Sélectionnez Exécuter>Admin.
Dans la liste des passerelles IA , sélectionnez la passerelle que vous souhaitez utiliser.
Dans le volet d’informations de la passerelle qui s’affiche, sélectionnez Gestion des jetons.
Sélectionnez + Définir la limite pour créer une nouvelle limite pour un déploiement de modèle.
Sélectionnez le projet et le déploiement que vous souhaitez restreindre, puis entrez une valeur de limite (jeton par minute).
Sélectionnez Créer pour enregistrer vos modifications.

Comprendre les fenêtres de quota

Les limites de jeton ont deux dimensions d’application complémentaires :

Limite du taux TPM : limite la consommation de jetons à un maximum configuré par minute. Lorsque les requêtes dépassent la limite TPM, l’appelant reçoit un code d’état 429 Too Many Requests de réponse.
Quota total de jetons : limite la consommation de jetons à un maximum configuré par période de quota (par exemple, horaire, quotidien, hebdomadaire, mensuel ou annuel). Lorsque les requêtes dépassent le quota, l’appelant reçoit un code d’état 403 Forbidden de réponse.

Si vous envoyez plusieurs requêtes simultanément, la consommation de jetons peut dépasser temporairement les limites configurées jusqu’à ce que les réponses soient traitées.

L’ajustement d’un quota ou d’une valeur TPM affecte les décisions d’application suivantes.

Pour plus d’informations, consultez la passerelle d'IA dans Gestion des API Azure et Limiter l’utilisation des jetons d’API de grandes modèles de langage.

Vérifier l’application

Envoyez des demandes de test à un point de terminaison de déploiement de modèle à l’aide de l’URL et de la clé de passerelle du projet.
Augmentez progressivement la fréquence des requêtes jusqu’à ce que les déclencheurs de limite de module de plateforme sécurisée (TPM) se déclenchent.
Suivez les jetons cumulatifs jusqu’à ce que le quota se déclenche.
Vérifiez que :
- 429 Too Many Requests (réponse limitée par débit) est retournée lorsque les requêtes dépassent la limite TPM.
- 403 Forbidden (erreur de quota) est retournée lorsque les demandes épuisent le quota.

Ajuster les limites

Revenez aux paramètres de la passerelle AI Gateway du projet.
Modifiez les valeurs de TPM ou de quota.
Enregistrez les modifications. Les nouvelles limites s’appliquent immédiatement aux demandes suivantes.

Dépanner

Problème	Cause possible	Action
L’instance Gestion des API n’apparaît pas	Délai d’approvisionnement	Actualisez après quelques minutes.
Les limites ne sont pas appliquées	Configuration incorrecte ou projet non lié	Rouvrez les paramètres et confirmez que le bouton d'activation de l'application est activé. Vérifiez que la passerelle IA est activée pour le projet et que les limites correctes sont configurées.
La latence est élevée après l’activation	Démarrage à froid de l'API Management ou non-correspondance de la région	Vérifiez la région Gestion des API par rapport à la région de ressource. Appelez le modèle directement et comparez le résultat à l’appel proxié via la passerelle IA pour identifier si les problèmes de performances sont liés à la passerelle.

Si la console d’administration est lente, réessayez après un bref intervalle.

Passerelle de l'IA dans Gestion des API Azure
Qu’est-ce que Gestion des API Azure ?
Limiter l’utilisation des jetons d’API de modèle linguistique étendu
Comment utiliser le contrôle d’accès en fonction du rôle dans Gestion des API Azure
contrôle d’accès basé sur les rôles pour Microsoft Foundry

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-30