Microsoft quotas et limites des modèles Foundry (classique)

Affichage actuel :Version du portail - Passer à la version du nouveau portail Foundry

Note

Les liens de cet article peuvent ouvrir du contenu dans la nouvelle documentation Microsoft Foundry au lieu de la documentation Foundry (classique) que vous affichez maintenant.

Cet article fournit une description rapide et détaillée des quotas et limites des modèles Foundry vendus directement par Azure. Pour connaître les quotas et les limites spécifiques à l’Azure OpenAI dans les modèles Foundry, consultez Quotas et limites dans Azure OpenAI.

Mises à jour de la gestion des quotas après le 06/05/2025

Microsoft Foundry introduit une mise à jour de la gestion des quotas pour assurer la cohérence et la prévisibilité de la gestion du quota entre les déploiements. À compter de Realtime Translate et Realtime Whisper, le quota pour les déploiements est suivi au niveau de l’abonnement ( partagé entre toutes les ressources et régions) au lieu d’être alloué séparément par ressource ou par région.

Cette modification consolide le quota dans les pools partagés :

  • Standard global : les déploiements du même modèle et de la même version partagent un pool de quotas dans toutes les régions d’un abonnement.
  • Norme de zone de données : les déploiements du même modèle et de la même version partagent un pool de quotas par zone de données (par exemple, états-Unis ou UE).

Qu’est-ce qui change pour moi ?

Pour les modèles intégrés au nouveau système de gestion des quotas :

  • Tous les déploiements Global Standard du même modèle et de la même version sous un abonnement proviennent désormais d’un pool de quotas partagé unique dans toutes les régions.
  • Tous les déploiements Standard de zone de données du même modèle ou de version sous un abonnement proviennent désormais d’un pool de quotas partagés au sein de chaque zone de données.
  • Le quota approuvé existant est conservé et s’applique automatiquement au niveau de l’abonnement. Aucune action n’est requise.

Cette consolidation permet à Microsoft Foundry d’offrir des modèles pris en charge de manière cohérente dans toutes les régions de Foundry, quelle que soit la façon dont le quota est distribué entre les ressources ou les régions.

Important

La gestion des quotas mise à jour s’applique uniquement à Realtime Translate et Realtime Whisper. Pour tous les autres modèles Foundry abordés dans cet article, les quotas et les limites sont gérés par région, par abonnement et par modèle ou type de déploiement. À l’avenir, ces directives de quota s’appliquent également à certains modèles existants et aux lancements de nouveaux modèles Foundry.

Informations de référence sur les quotas et les limites

Les sections suivantes fournissent un guide rapide sur les quotas et limites par défaut qui s’appliquent aux modèles Foundry. Les quotas et les limites ne sont pas appliqués au niveau du locataire. Au lieu de cela, le niveau de restrictions de quota le plus élevé est limité au niveau de l’abonnement Azure. Les jetons par minute (TPM) et les demandes par minute (RPM) sont définis par région, par abonnement et par modèle ou type de déploiement.

Limites de ressources (par abonnement Azure, par région)

Nom de limite Valeur limite
Ressources de Foundry par région par abonnement Azure 100
Nombre maximal de projets par ressource 250
Nombre maximal de déploiements par ressource (déploiements de modèles dans une ressource Foundry) 32

Limites de débit

Le tableau suivant répertorie les limites des modèles Foundry pour les taux suivants :

  • Jetons par minute
  • Demandes par minute
  • Demande simultanée
Modèles Jetons par minute Demandes par minute Demandes simultanées
Azure modèles OpenAI Varie selon le modèle et la référence SKU. Consultez limits pour Azure OpenAI. Varie selon le modèle et la référence SKU. Consultez limits pour Azure OpenAI. Varie. Consultez les limites d'Azure OpenAI.
- DeepSeek-R1
- DeepSeek-V3-0324
5,000,000 5,000 300
- Llama 3.3 70B Instruct
- Llama-4-Maverick-17B-128E-Instruct-FP8
- Grok 3
- Grok 3 mini
400,000 1,000 300
- Flux.2-Pro non applicable - Faible (valeur par défaut) : 15
- Moyen : 30
- Haute (Entreprise) : 100
non applicable
- Flux-Pro 1.1
- Flux.1-Kontext Pro
non applicable 2 unités de capacité (6 requêtes par minute) non applicable
Reste des modèles 400,000 1,000 300

Pour augmenter votre quota :

En raison de la forte demande, les demandes d’augmentation de limite sont évaluées individuellement.

Autres limites

Nom de limite Valeur limite
Nombre maximal d’en-têtes personnalisés dans les demandes d’API1 10

1 Les API actuelles autorisent jusqu’à 10 en-têtes personnalisés, que le pipeline passe et retourne. Si vous dépassez ce nombre d’en-têtes, votre requête génère une erreur HTTP 431. Pour résoudre cette erreur, réduisez le volume d’en-tête. Les futures versions d’API ne passent pas par des en-têtes personnalisés. Ne dépendez pas des en-têtes personnalisés dans les futures architectures système.

Niveaux d’utilisation

Les déploiements Globaux Standard utilisent l'infrastructure globale de Azure pour acheminer dynamiquement le trafic client vers le centre de données avec une meilleure disponibilité pour les demandes d'inférence du client. Cette infrastructure permet une latence plus cohérente pour les clients ayant des niveaux de trafic faible à moyen. Les clients disposant de niveaux d’utilisation élevés peuvent voir plus de variabilités dans la latence de réponse.

La limite d’utilisation détermine le niveau d’utilisation au-dessus duquel les clients peuvent voir une plus grande variabilité dans la latence de réponse. L’utilisation d’un client est calculée par modèle et représente le nombre total de jetons consommés dans tous les déploiements, dans tous les abonnements, de toutes les régions pour un locataire donné.

Demander l'augmentation des limites par défaut

Envoyez le formulaire de demande d'augmentation de quota pour demander des augmentations de quota pour les modèles Foundry vendus directement par Azure, les modèles Azure OpenAI et les modèles Anthropic. À l'exception des modèles Anthropic, Modèles des partenaires et de la communauté ne prennent pas en charge d'augmentation de quotas.

Les demandes d’augmentation de quota sont traitées dans l’ordre dans lequel elles sont reçues, et la priorité est accordée aux clients qui utilisent activement leur allocation de quota existante. Les demandes qui ne répondent pas à cette condition peuvent être refusées.

Bonnes pratiques générales pour rester dans les limites de taux

Pour réduire les problèmes liés aux limites de débit, utilisez les techniques suivantes :

  • Implémentez la logique de nouvelle tentative dans votre application.
  • Évitez les modifications nettes dans la charge de travail. Augmentez progressivement la charge de travail.
  • Testez différents modèles d’augmentation de charge.
  • Augmentez le quota affecté à votre déploiement. Déplacez le quota à partir d’un autre déploiement, si nécessaire.

Définition du délai d’expiration côté client

Définissez explicitement le délai d’expiration côté client en fonction des instructions suivantes.

Note

S’il n’est pas défini explicitement, le délai d’expiration côté client existe conformément à la bibliothèque utilisée et peut ne pas être les mêmes limites que ci-dessus.

  • Modèles de raisonnement (modèles qui génèrent des jetons de raisonnement intermédiaire avant de produire une réponse résumée) : jusqu’à 29 minutes.
  • Modèles de non-raisonnement :
    • Pour la diffusion en continu, jusqu’à 60 secondes.
    • Pour les demandes sans diffusion en continu, jusqu’à 29 minutes.

29 minutes ici ne signifie pas que toutes les requêtes prennent 29 minutes, mais plutôt en fonction des jetons de contexte, des jetons générés et des taux d’accès au cache, les requêtes peuvent prendre jusqu’à 29 minutes.

Définissez un délai d’expiration inférieur à ces valeurs, paramétré sur vos modèles de trafic.

Pour les modèles de raisonnement, y compris les demandes de diffusion en continu, tous les jetons de raisonnement sont d’abord générés, puis résumés avant d’envoyer le premier jeton de réponse à l’utilisateur.

Vous pouvez modifier le paramètre d’effort de raisonnement pour contrôler le nombre de jetons de raisonnement générés dans le processus.

Dépannage

Symptôme Cause Résolution
HTTP 429 Trop de requêtes Limite de jeton par minute ou de requête par minute dépassée Implémentez une logique de reprise avec des retards exponentiels. Utilisez la valeur d’en-tête Retry-After .
Champs d’en-tête de requête HTTP 431 trop volumineux Plus de 10 en-têtes personnalisés envoyés Réduisez les en-têtes personnalisés à 10 ou moins.
La page de quota affiche 0 disponible Abonnement ou quota régional entièrement alloué Déplacez le quota inutilisé d’un autre déploiement. Pour augmenter votre limite, demandez une augmentation de quota.
Modèle non disponible dans la région Le modèle n’est pas déployé ou pris en charge dans la région sélectionnée Vérifiez la disponibilité du modèle et choisissez une région disponible.