Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Momenteel weergeven:Foundry -portalversie - (klassiek)Overschakelen naar versie voor de nieuwe Foundry-portal
Opmerking
Koppelingen in dit artikel kunnen inhoud openen in de nieuwe Microsoft Foundry-documentatie in plaats van de Foundry-documentatie (klassiek) die u nu bekijkt.
Dit artikel bevat een beknopt overzicht en een gedetailleerde beschrijving van de quota en limieten voor Foundry Models die rechtstreeks worden verkocht door Azure. Zie Quota en limieten in Azure OpenAI voor quota en limieten die specifiek zijn voor de Azure OpenAI in Foundry Models.
Updates voor quotumbeheer na 05-06-2025
Microsoft Foundry introduceert een update voor quotumbeheer om consistentie en voorspelbaarheid te brengen in hoe quota worden beheerd in implementaties. Vanaf realtime vertalen en realtime fluisteren wordt het quotum voor implementaties bijgehouden op abonnementsniveau( gedeeld over alle resources en regio's) in plaats van afzonderlijk per resource of per regio te worden toegewezen.
Met deze wijziging wordt het quotum samengevoegd tot gedeelde pools:
- Globale standaard: implementaties van hetzelfde model en dezelfde versie delen één quotumgroep in alle regio's in een abonnement.
- Data Zone Standard: implementaties van hetzelfde model en dezelfde versie delen één quotumgroep per gegevenszone (bijvoorbeeld VS of EU).
Wat verandert er voor mij?
Voor de modellen die zijn geïntegreerd in het nieuwe quotumbeheersysteem:
- Alle Global Standard-implementaties van hetzelfde model en dezelfde versie onder een abonnement maken nu gebruik van één gedeelde quotumgroep in alle regio's.
- Alle standaardimplementaties voor gegevenszones van hetzelfde model en dezelfde versie onder een abonnement zijn nu afkomstig van een gedeelde quotumgroep binnen elke gegevenszone.
- Het bestaande goedgekeurde quotum wordt bewaard en wordt automatisch toegepast op abonnementsniveau. Er is geen actie vereist.
Dankzij deze samenvoeging kan Microsoft Foundry ondersteunde modellen consistent aanbieden in alle Foundry-regio's, ongeacht hoe het quotum wordt verdeeld over resources of regio's.
Belangrijk
Het bijgewerkte quotumbeheer is momenteel alleen van toepassing op Realtime Translate en Realtime Whisper. Voor alle andere Foundry-modellen die in dit artikel worden behandeld, worden quota en limieten beheerd per regio, per abonnement en per model of implementatietype. In de toekomst zijn deze quotarichtlijnen ook van toepassing op sommige bestaande modellen en op nieuwe Foundry Model-lanceringen.
Referentie voor quota en limieten
In de volgende secties vindt u een beknopt overzicht van de standaardquota en limieten die van toepassing zijn op Foundry-modellen. Quota en limieten worden niet afgedwongen op tenantniveau. In plaats daarvan wordt het hoogste niveau van quotumbeperkingen ingesteld op het niveau van het Azure abonnement. Tokens per minuut (TPM) en aanvragen per minuut (RPM) worden gedefinieerd per regio, per abonnement en per model of implementatietype.
Resourcelimieten (per Azure abonnement, per regio)
| Naam beperken | Limietwaarde |
|---|---|
| De Foundry-resources per regio binnen elk Azure-abonnement | 100 |
| Maximum aantal projecten per resource | 250 |
| Maximum aantal implementaties per resource (modelimplementaties binnen een Foundry-resource) | 32 |
Frequentielimieten
De volgende tabel bevat limieten voor Foundry Models voor de volgende tarieven:
- Tokens per minuut
- Aanvragen per minuut
- Gelijktijdige aanvraag
| Modellen | Tokens per minuut | Aanvragen per minuut | Gelijktijdige aanvragen |
|---|---|---|---|
| Azure OpenAI-modellen | Verschilt per model en SKU. Zie limits voor Azure OpenAI. | Verschilt per model en SKU. Zie limits voor Azure OpenAI. | Varieert. Zie Azure OpenAI-limieten. |
| - DeepSeek-R1 - DeepSeek-V3-0324 |
5,000,000 | 5,000 | 300 |
| - Llama 3.3 70B Instruct - Llama-4-Maverick-17B-128E-Instruct-FP8 - Grok 3 - Grok 3 mini |
400,000 | 1,000 | 300 |
| - Flux.2-Pro | niet van toepassing | - Laag (standaard): 15 - Gemiddeld: 30 - Hoog (Onderneming): 100 |
niet van toepassing |
| - Flux-Pro 1.1 - Flux.1-Kontext Pro |
niet van toepassing | 2 capaciteitseenheden (6 aanvragen per minuut) | niet van toepassing |
| Rest van modellen | 400,000 | 1,000 | 300 |
Ga als volgende te werk om uw quotum te verhogen:
- Gebruik voor Azure OpenAI Foundry-service: Aanvraag voor quotumverhoging om uw aanvraag in te dienen.
- Zie aanvraagverhogingen voor andere modellen tot de standaardlimieten.
Vanwege een hoge vraag worden aanvragen voor het verhogen van limieten afzonderlijk geëvalueerd.
Andere limieten
| Naam beperken | Limietwaarde |
|---|---|
| Maximum aantal aangepaste headers in API-aanvragen1 | 10 |
1 De huidige API staat maximaal 10 aangepaste headers toe, die de pijplijn doorvoert en teruggeeft. Als u het aantal headers overschrijdt, resulteert uw aanvraag in een HTTP 431-fout. Verminder het headervolume om deze fout op te lossen. Toekomstige API-versies passeren geen aangepaste headers. Wees niet afhankelijk van aangepaste headers in toekomstige systeemarchitecturen.
Gebruikslagen
Global Standard-implementaties maken gebruik van de wereldwijde infrastructuur van Azure om klantverkeer dynamisch te routeren naar het datacenter dat de beste beschikbaarheid biedt voor de inference-aanvragen van de klant. Deze infrastructuur maakt consistentere latentie mogelijk voor klanten met een laag tot gemiddeld verkeersniveau. Klanten met een hoog blijvend gebruiksniveau zien mogelijk meer variabiliteiten in reactielatentie.
De gebruikslimiet bepaalt het gebruiksniveau waarboven klanten grotere variabiliteit in reactielatentie kunnen zien. Het gebruik van een klant wordt per model gedefinieerd en is het totale aantal tokens dat wordt gebruikt voor alle implementaties in alle abonnementen in alle regio's voor een bepaalde tenant.
Verzoek om de standaardlimieten te verhogen
Dien het quotaverhogingsformulier in om quotumverhogingen aan te vragen voor Foundry Models die rechtstreeks worden verkocht door Azure, Azure OpenAI-modellen en Anthropic modellen. Met uitzondering van Anthropic modellen bieden Models van partners en community geen ondersteuning voor quotumverhogingen.
Aanvragen voor quotumverhoging worden verwerkt in de volgorde waarin ze worden ontvangen en prioriteit gaat naar klanten die hun bestaande quotumtoewijzing actief gebruiken. Aanvragen die niet aan deze voorwaarde voldoen, kunnen worden geweigerd.
Algemene aanbevolen procedures om binnen frequentielimieten te blijven
Gebruik de volgende technieken om problemen met betrekking tot frequentielimieten te minimaliseren:
- Implementeer logica voor opnieuw proberen in uw toepassing.
- Vermijd scherpe wijzigingen in de workload. Verhoog de workload geleidelijk.
- Test verschillende patronen voor belastingverhoging.
- Verhoog het quotum dat is toegewezen aan uw implementatie. Quota verplaatsen van een andere uitrol, indien nodig.
Time-out aan clientzijde instellen
Stel de time-out aan de clientzijde expliciet in op basis van de volgende richtlijnen.
Opmerking
Als deze niet expliciet is ingesteld, bestaat de time-out aan de clientzijde op basis van de gebruikte bibliotheek en zijn deze mogelijk niet dezelfde limieten als hierboven.
- Redeneringsmodellen (modellen die tussenliggende redeneringstokens genereren voordat een samengevat antwoord wordt gegenereerd): maximaal 29 minuten.
- Niet-redenerende modellen:
- Voor streaming is het maximaal 60 seconden.
- Voor niet-streaming-aanvragen duurt het maximaal 29 minuten.
29 minuten hier betekent niet dat alle aanvragen 29 minuten duren, maar dat het maximaal 29 minuten kan duren, afhankelijk van contexttokens, gegenereerde tokens en cachetrefferpercentages.
Stel een time-out in die kleiner is dan deze waarden, afgestemd op uw verkeerspatronen.
Voor redeneringsmodellen, inclusief streamingaanvragen, worden eerst alle redeneringstokens gegenereerd en vervolgens samengevat voordat het eerste antwoordtoken naar de gebruiker wordt verzonden.
U kunt de parameter voor de redeneringsinspanning wijzigen om het aantal redeneringstokens te bepalen dat in het proces is gegenereerd.
Probleemoplossing
| Symptoom | Oorzaak | Resolutie |
|---|---|---|
| HTTP 429 Te veel aanvragen | Token-per-minuut- of aanvraag-per-minuutlimiet overschreden | Implementeer logica voor opnieuw proberen met exponentiële terugval. Gebruik de Retry-After headerwaarde. |
| HTTP 431 Verzoekheadervelden te groot | Meer dan 10 aangepaste headers verzonden | Verminder aangepaste headers tot 10 of minder. |
| Op de quotapagina ziet u dat er 0 beschikbaar is. | Volledig toegewezen abonnement of regionaal quotum | Ongebruikt quotum van een andere implementatie verplaatsen. Als u uw limiet wilt verhogen, vraagt u een quotumverhoging aan. |
| Model niet beschikbaar in regio | Model wordt niet geïmplementeerd of ondersteund in de geselecteerde regio | Controleer de beschikbaarheid van modellen en kies een beschikbare regio. |