Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Microsoft Foundry Control Plane dwingt tpm-frequentielimieten (tokens per minuut) en totale tokenquota af voor modelimplementaties binnen het projectbereik. Met dit beleid voorkomt u het ongeremd gebruik van tokens en wordt het gebruik in lijn gebracht met de richtlijnen van de organisatie. Foundry Control Plane kan worden geïntegreerd met AI-gateways om geavanceerde beleidsafdwinging voor modellen te bieden.
In dit artikel wordt uitgelegd hoe u tokensnelheidslimieten en tokenquota configureert.
Voorwaarden
-
Een Azure-account met een actief abonnement. Als u nog geen account hebt, maakt u een vrij Azure-account, inclusief een gratis proefabonnement.
Een Foundry-resource waarvoor een AI-gateway is geconfigureerd. Meer informatie over het inschakelen van een AI-gateway voor een Foundry-resource.
Een Foundry-project met een geïmplementeerd model dat is toegevoegd aan de geconfigureerde AI-gateway. Als u een AI-gateway voor een project wilt inschakelen, hebt u de rol API Management Service-inzender (of Owner) in de Azure API Management-resource nodig.
Inzicht in AI-gateways
Wanneer u een AI-gateway met Foundry Control Plane gebruikt om geavanceerde beleidsafdwinging te bieden voor modellen, bevindt de AI-gateway zich tussen clients en modelimplementaties. Het laat alle aanvragen verlopen via het API Management-exemplaar dat ermee is geassocieerd.
Limieten gelden op projectniveau. Dat wil zeggen dat elk project eigen TPM- en quotuminstellingen kan hebben.
Diagram van de logische stroom van klantverzoeken die via Azure API Management als een AI-gateway worden doorgegeven voordat ze modelimplementaties binnen een project bereiken.
Een AI-gateway gebruiken voor:
- Beheersing van meerdere teamtokens (voorkomen dat één project capaciteit kan monopoliseren).
- Kostenbeheer door het aggregatiesgebruik te beperken.
- Nalevingsgrenzen voor gereguleerde workloads (voorspelbare gebruiksdrempels afdwingen).
Tokenlimieten configureren
U kunt tokenlimieten configureren voor specifieke modelimplementaties binnen uw projecten:
-
Meld u aan bij Microsoft Foundry. Zorg ervoor dat de wisselknop New Foundry is ingeschakeld. Deze stappen verwijzen naar Foundry (nieuw).
Selecteer Bedienen>Beheerder.
Selecteer in de lijst ai-gateway de gateway die u wilt gebruiken.
Selecteer Tokenbeheer in het detailvenster van de gateway dat wordt weergegeven.
Selecteer + Limiet instellen om een nieuwe limiet voor een modelimplementatie te maken.
Selecteer het project en de implementatie die u wilt beperken en voer een waarde in voor Limiet (token per minuut).
Selecteer Maken om uw wijzigingen op te slaan.
Inzicht in quotumvensters
Tokenlimieten hebben twee aanvullende afdwingingsdimensies:
TPM-frequentielimiet: beperkt tokenverbruik tot een geconfigureerd maximum per minuut. Wanneer aanvragen de TPM-limiet overschrijden, ontvangt de aanroeper een
429 Too Many Requestsantwoordstatuscode.Totaal tokenquotum: beperkt tokenverbruik tot een geconfigureerd maximum per quotumperiode (bijvoorbeeld per uur, dagelijks, wekelijks, maandelijks of jaarlijks). Wanneer aanvragen het quotum overschrijden, ontvangt de aanroeper een
403 Forbiddenantwoordstatuscode.
Als u veel aanvragen gelijktijdig verzendt, kan tokenverbruik de geconfigureerde limieten tijdelijk overschrijden totdat antwoorden worden verwerkt.
Het aanpassen van een quotum of TPM-waarde is van invloed op volgende afdwingingsbeslissingen.
Zie AI-gateway in Azure API Management en Limit large language model API token usage voor meer informatie.
Afdwingen controleren
Testaanvragen verzenden naar een eindpunt voor modelimplementatie met behulp van de gateway-URL en sleutel van het project.
Verhoog de aanvraagfrequentie geleidelijk totdat de TPM-limiet wordt geactiveerd.
Volg cumulatieve tokens totdat de quotumtriggers worden geactiveerd.
Valideer dat:
-
429 Too Many Requests(frequentiebeperkingsreactie) wordt geretourneerd wanneer aanvragen de TPM-limiet overschrijden. -
403 Forbidden(quotumfout) wordt geretourneerd wanneer aanvragen het quotum uitputten.
-
Limieten aanpassen
Ga terug naar de AI Gateway-instellingen van het project.
TPM- of quotumwaarden wijzigen.
Sla de wijzigingen op. Nieuwe limieten zijn onmiddellijk van toepassing op volgende aanvragen.
Problemen oplossen
| Probleem | Mogelijke oorzaak | Actie |
|---|---|---|
| API Management-instantie wordt niet weergegeven | Voorzieningsvertraging | Vernieuw na een paar minuten. |
| Limieten worden niet afgedwongen | Onjuiste configuratie of project niet gekoppeld | Open de instellingen opnieuw en controleer of de wisselknop voor afdwingen is ingeschakeld. Controleer of de AI-gateway is ingeschakeld voor het project en of de juiste limieten zijn geconfigureerd. |
| Latentie is hoog na inschakeling | Cold start of regiomismatch van API-beheer | Controleer de API Management-regio versus de resource-regio. Roep het model rechtstreeks aan en vergelijk het resultaat met de aanroep die is geproxied via de AI-gateway om te bepalen of prestatieproblemen betrekking hebben op de gateway. |
Als de beheerconsole traag is, probeert u het na een kort interval opnieuw.