quota en limieten voor Microsoft Foundry Models (klassiek)

Momenteel weergeven:Foundry -portalversie - (klassiek)Overschakelen naar versie voor de nieuwe Foundry-portal

Opmerking

Koppelingen in dit artikel kunnen inhoud openen in de nieuwe Microsoft Foundry-documentatie in plaats van de Foundry-documentatie (klassiek) die u nu bekijkt.

Dit artikel bevat een beknopt overzicht en een gedetailleerde beschrijving van de quota en limieten voor Foundry Models die rechtstreeks worden verkocht door Azure. Zie Quota en limieten in Azure OpenAI voor quota en limieten die specifiek zijn voor de Azure OpenAI in Foundry Models.

Updates voor quotumbeheer na 05-06-2025

Microsoft Foundry introduceert een update voor quotumbeheer om consistentie en voorspelbaarheid te brengen in hoe quota worden beheerd in implementaties. Vanaf realtime vertalen en realtime fluisteren wordt het quotum voor implementaties bijgehouden op abonnementsniveau( gedeeld over alle resources en regio's) in plaats van afzonderlijk per resource of per regio te worden toegewezen.

Met deze wijziging wordt het quotum samengevoegd tot gedeelde pools:

Globale standaard: implementaties van hetzelfde model en dezelfde versie delen één quotumgroep in alle regio's in een abonnement.
Data Zone Standard: implementaties van hetzelfde model en dezelfde versie delen één quotumgroep per gegevenszone (bijvoorbeeld VS of EU).

Wat verandert er voor mij?

Voor de modellen die zijn geïntegreerd in het nieuwe quotumbeheersysteem:

Alle Global Standard-implementaties van hetzelfde model en dezelfde versie onder een abonnement maken nu gebruik van één gedeelde quotumgroep in alle regio's.
Alle standaardimplementaties voor gegevenszones van hetzelfde model en dezelfde versie onder een abonnement zijn nu afkomstig van een gedeelde quotumgroep binnen elke gegevenszone.
Het bestaande goedgekeurde quotum wordt bewaard en wordt automatisch toegepast op abonnementsniveau. Er is geen actie vereist.

Dankzij deze samenvoeging kan Microsoft Foundry ondersteunde modellen consistent aanbieden in alle Foundry-regio's, ongeacht hoe het quotum wordt verdeeld over resources of regio's.

Belangrijk

Het bijgewerkte quotumbeheer is momenteel alleen van toepassing op Realtime Translate en Realtime Whisper. Voor alle andere Foundry-modellen die in dit artikel worden behandeld, worden quota en limieten beheerd per regio, per abonnement en per model of implementatietype. In de toekomst zijn deze quotarichtlijnen ook van toepassing op sommige bestaande modellen en op nieuwe Foundry Model-lanceringen.

Referentie voor quota en limieten

In de volgende secties vindt u een beknopt overzicht van de standaardquota en limieten die van toepassing zijn op Foundry-modellen. Quota en limieten worden niet afgedwongen op tenantniveau. In plaats daarvan wordt het hoogste niveau van quotumbeperkingen ingesteld op het niveau van het Azure abonnement. Tokens per minuut (TPM) en aanvragen per minuut (RPM) worden gedefinieerd per regio, per abonnement en per model of implementatietype.

Resourcelimieten (per Azure abonnement, per regio)

Naam beperken	Limietwaarde
De Foundry-resources per regio binnen elk Azure-abonnement	100
Maximum aantal projecten per resource	250
Maximum aantal implementaties per resource (modelimplementaties binnen een Foundry-resource)	32

Frequentielimieten

De volgende tabel bevat limieten voor Foundry Models voor de volgende tarieven:

Tokens per minuut
Aanvragen per minuut
Gelijktijdige aanvraag

Modellen	Tokens per minuut	Aanvragen per minuut	Gelijktijdige aanvragen
Azure OpenAI-modellen	Verschilt per model en SKU. Zie limits voor Azure OpenAI.	Verschilt per model en SKU. Zie limits voor Azure OpenAI.	Varieert. Zie Azure OpenAI-limieten.
- DeepSeek-R1 - DeepSeek-V3-0324	5,000,000	5,000	300
- Llama 3.3 70B Instruct - Llama-4-Maverick-17B-128E-Instruct-FP8 - Grok 3 - Grok 3 mini	400,000	1,000	300
- Flux.2-Pro	niet van toepassing	- Laag (standaard): 15 - Gemiddeld: 30 - Hoog (Onderneming): 100	niet van toepassing
- Flux-Pro 1.1 - Flux.1-Kontext Pro	niet van toepassing	2 capaciteitseenheden (6 aanvragen per minuut)	niet van toepassing
Rest van modellen	400,000	1,000	300

Ga als volgende te werk om uw quotum te verhogen:

Gebruik voor Azure OpenAI Foundry-service: Aanvraag voor quotumverhoging om uw aanvraag in te dienen.
Zie aanvraagverhogingen voor andere modellen tot de standaardlimieten.

Vanwege een hoge vraag worden aanvragen voor het verhogen van limieten afzonderlijk geëvalueerd.

Andere limieten

Naam beperken	Limietwaarde
Maximum aantal aangepaste headers in API-aanvragen¹	10

¹ De huidige API staat maximaal 10 aangepaste headers toe, die de pijplijn doorvoert en teruggeeft. Als u het aantal headers overschrijdt, resulteert uw aanvraag in een HTTP 431-fout. Verminder het headervolume om deze fout op te lossen. Toekomstige API-versies passeren geen aangepaste headers. Wees niet afhankelijk van aangepaste headers in toekomstige systeemarchitecturen.

Gebruikslagen

Global Standard-implementaties maken gebruik van de wereldwijde infrastructuur van Azure om klantverkeer dynamisch te routeren naar het datacenter dat de beste beschikbaarheid biedt voor de inference-aanvragen van de klant. Deze infrastructuur maakt consistentere latentie mogelijk voor klanten met een laag tot gemiddeld verkeersniveau. Klanten met een hoog blijvend gebruiksniveau zien mogelijk meer variabiliteiten in reactielatentie.

De gebruikslimiet bepaalt het gebruiksniveau waarboven klanten grotere variabiliteit in reactielatentie kunnen zien. Het gebruik van een klant wordt per model gedefinieerd en is het totale aantal tokens dat wordt gebruikt voor alle implementaties in alle abonnementen in alle regio's voor een bepaalde tenant.

Verzoek om de standaardlimieten te verhogen

Dien het quotaverhogingsformulier in om quotumverhogingen aan te vragen voor Foundry Models die rechtstreeks worden verkocht door Azure, Azure OpenAI-modellen en Anthropic modellen. Met uitzondering van Anthropic modellen bieden Models van partners en community geen ondersteuning voor quotumverhogingen.

Aanvragen voor quotumverhoging worden verwerkt in de volgorde waarin ze worden ontvangen en prioriteit gaat naar klanten die hun bestaande quotumtoewijzing actief gebruiken. Aanvragen die niet aan deze voorwaarde voldoen, kunnen worden geweigerd.

Algemene aanbevolen procedures om binnen frequentielimieten te blijven

Gebruik de volgende technieken om problemen met betrekking tot frequentielimieten te minimaliseren:

Implementeer logica voor opnieuw proberen in uw toepassing.
Vermijd scherpe wijzigingen in de workload. Verhoog de workload geleidelijk.
Test verschillende patronen voor belastingverhoging.
Verhoog het quotum dat is toegewezen aan uw implementatie. Quota verplaatsen van een andere uitrol, indien nodig.

Time-out aan clientzijde instellen

Stel de time-out aan de clientzijde expliciet in op basis van de volgende richtlijnen.

Opmerking

Als deze niet expliciet is ingesteld, bestaat de time-out aan de clientzijde op basis van de gebruikte bibliotheek en zijn deze mogelijk niet dezelfde limieten als hierboven.

Redeneringsmodellen (modellen die tussenliggende redeneringstokens genereren voordat een samengevat antwoord wordt gegenereerd): maximaal 29 minuten.
Niet-redenerende modellen:
- Voor streaming is het maximaal 60 seconden.
- Voor niet-streaming-aanvragen duurt het maximaal 29 minuten.

29 minuten hier betekent niet dat alle aanvragen 29 minuten duren, maar dat het maximaal 29 minuten kan duren, afhankelijk van contexttokens, gegenereerde tokens en cachetrefferpercentages.

Stel een time-out in die kleiner is dan deze waarden, afgestemd op uw verkeerspatronen.

Voor redeneringsmodellen, inclusief streamingaanvragen, worden eerst alle redeneringstokens gegenereerd en vervolgens samengevat voordat het eerste antwoordtoken naar de gebruiker wordt verzonden.

U kunt de parameter voor de redeneringsinspanning wijzigen om het aantal redeneringstokens te bepalen dat in het proces is gegenereerd.

Probleemoplossing

Symptoom	Oorzaak	Resolutie
HTTP 429 Te veel aanvragen	Token-per-minuut- of aanvraag-per-minuutlimiet overschreden	Implementeer logica voor opnieuw proberen met exponentiële terugval. Gebruik de `Retry-After` headerwaarde.
HTTP 431 Verzoekheadervelden te groot	Meer dan 10 aangepaste headers verzonden	Verminder aangepaste headers tot 10 of minder.
Op de quotapagina ziet u dat er 0 beschikbaar is.	Volledig toegewezen abonnement of regionaal quotum	Ongebruikt quotum van een andere implementatie verplaatsen. Als u uw limiet wilt verhogen, vraagt u een quotumverhoging aan.
Model niet beschikbaar in regio	Model wordt niet geïmplementeerd of ondersteund in de geselecteerde regio	Controleer de beschikbaarheid van modellen en kies een beschikbare regio.

Feedback

Is deze pagina nuttig?

Last updated on 2026-05-08