Tokenlimieten afdwingen voor modellen

Microsoft Foundry Control Plane dwingt tpm-frequentielimieten (tokens per minuut) en totale tokenquota af voor modelimplementaties binnen het projectbereik. Met dit beleid voorkomt u het ongeremd gebruik van tokens en wordt het gebruik in lijn gebracht met de richtlijnen van de organisatie. Foundry Control Plane kan worden geïntegreerd met AI-gateways om geavanceerde beleidsafdwinging voor modellen te bieden.

In dit artikel wordt uitgelegd hoe u tokensnelheidslimieten en tokenquota configureert.

Voorwaarden

Een Azure-account met een actief abonnement. Als u nog geen account hebt, maakt u een vrij Azure-account, inclusief een gratis proefabonnement.
Een Foundry-resource waarvoor een AI-gateway is geconfigureerd. Meer informatie over het inschakelen van een AI-gateway voor een Foundry-resource.
Een Foundry-project met een geïmplementeerd model dat is toegevoegd aan de geconfigureerde AI-gateway. Als u een AI-gateway voor een project wilt inschakelen, hebt u de rol API Management Service-inzender (of Owner) in de Azure API Management-resource nodig.

Inzicht in AI-gateways

Wanneer u een AI-gateway met Foundry Control Plane gebruikt om geavanceerde beleidsafdwinging te bieden voor modellen, bevindt de AI-gateway zich tussen clients en modelimplementaties. Het laat alle aanvragen verlopen via het API Management-exemplaar dat ermee is geassocieerd.

Limieten gelden op projectniveau. Dat wil zeggen dat elk project eigen TPM- en quotuminstellingen kan hebben.

Diagram van de logische stroom van klantverzoeken die via Azure API Management als een AI-gateway worden doorgegeven voordat ze modelimplementaties binnen een project bereiken.

Een AI-gateway gebruiken voor:

Beheersing van meerdere teamtokens (voorkomen dat één project capaciteit kan monopoliseren).
Kostenbeheer door het aggregatiesgebruik te beperken.
Nalevingsgrenzen voor gereguleerde workloads (voorspelbare gebruiksdrempels afdwingen).

Tokenlimieten configureren

U kunt tokenlimieten configureren voor specifieke modelimplementaties binnen uw projecten:

Meld u aan bij Microsoft Foundry. Zorg ervoor dat de wisselknop New Foundry is ingeschakeld. Deze stappen verwijzen naar Foundry (nieuw).
Selecteer Bedienen>Beheerder.
Selecteer in de lijst ai-gateway de gateway die u wilt gebruiken.
Selecteer Tokenbeheer in het detailvenster van de gateway dat wordt weergegeven.
Selecteer + Limiet instellen om een nieuwe limiet voor een modelimplementatie te maken.
Selecteer het project en de implementatie die u wilt beperken en voer een waarde in voor Limiet (token per minuut).
Selecteer Maken om uw wijzigingen op te slaan.

Inzicht in quotumvensters

Tokenlimieten hebben twee aanvullende afdwingingsdimensies:

TPM-frequentielimiet: beperkt tokenverbruik tot een geconfigureerd maximum per minuut. Wanneer aanvragen de TPM-limiet overschrijden, ontvangt de aanroeper een 429 Too Many Requests antwoordstatuscode.
Totaal tokenquotum: beperkt tokenverbruik tot een geconfigureerd maximum per quotumperiode (bijvoorbeeld per uur, dagelijks, wekelijks, maandelijks of jaarlijks). Wanneer aanvragen het quotum overschrijden, ontvangt de aanroeper een 403 Forbidden antwoordstatuscode.

Als u veel aanvragen gelijktijdig verzendt, kan tokenverbruik de geconfigureerde limieten tijdelijk overschrijden totdat antwoorden worden verwerkt.

Het aanpassen van een quotum of TPM-waarde is van invloed op volgende afdwingingsbeslissingen.

Zie AI-gateway in Azure API Management en Limit large language model API token usage voor meer informatie.

Afdwingen controleren

Testaanvragen verzenden naar een eindpunt voor modelimplementatie met behulp van de gateway-URL en sleutel van het project.
Verhoog de aanvraagfrequentie geleidelijk totdat de TPM-limiet wordt geactiveerd.
Volg cumulatieve tokens totdat de quotumtriggers worden geactiveerd.
Valideer dat:
- 429 Too Many Requests (frequentiebeperkingsreactie) wordt geretourneerd wanneer aanvragen de TPM-limiet overschrijden.
- 403 Forbidden (quotumfout) wordt geretourneerd wanneer aanvragen het quotum uitputten.

Limieten aanpassen

Ga terug naar de AI Gateway-instellingen van het project.
TPM- of quotumwaarden wijzigen.
Sla de wijzigingen op. Nieuwe limieten zijn onmiddellijk van toepassing op volgende aanvragen.

Problemen oplossen

Probleem	Mogelijke oorzaak	Actie
API Management-instantie wordt niet weergegeven	Voorzieningsvertraging	Vernieuw na een paar minuten.
Limieten worden niet afgedwongen	Onjuiste configuratie of project niet gekoppeld	Open de instellingen opnieuw en controleer of de wisselknop voor afdwingen is ingeschakeld. Controleer of de AI-gateway is ingeschakeld voor het project en of de juiste limieten zijn geconfigureerd.
Latentie is hoog na inschakeling	Cold start of regiomismatch van API-beheer	Controleer de API Management-regio versus de resource-regio. Roep het model rechtstreeks aan en vergelijk het resultaat met de aanroep die is geproxied via de AI-gateway om te bepalen of prestatieproblemen betrekking hebben op de gateway.

Als de beheerconsole traag is, probeert u het na een kort interval opnieuw.

Feedback

Is deze pagina nuttig?

Last updated on 2026-04-30