Tokenlimieten afdwingen voor modellen

Microsoft Foundry Control Plane dwingt tpm-frequentielimieten (tokens per minuut) en totale tokenquota af voor modelimplementaties binnen het projectbereik. Met dit beleid voorkomt u het ongeremd gebruik van tokens en wordt het gebruik in lijn gebracht met de richtlijnen van de organisatie. Foundry Control Plane kan worden geïntegreerd met AI-gateways om geavanceerde beleidsafdwinging voor modellen te bieden.

In dit artikel wordt uitgelegd hoe u tokensnelheidslimieten en tokenquota configureert.

Voorwaarden

Inzicht in AI-gateways

Wanneer u een AI-gateway met Foundry Control Plane gebruikt om geavanceerde beleidsafdwinging te bieden voor modellen, bevindt de AI-gateway zich tussen clients en modelimplementaties. Het laat alle aanvragen verlopen via het API Management-exemplaar dat ermee is geassocieerd.

Limieten gelden op projectniveau. Dat wil zeggen dat elk project eigen TPM- en quotuminstellingen kan hebben.

Diagram van de logische stroom van klantverzoeken die via Azure API Management als een AI-gateway worden doorgegeven voordat ze modelimplementaties binnen een project bereiken.

Een AI-gateway gebruiken voor:

  • Beheersing van meerdere teamtokens (voorkomen dat één project capaciteit kan monopoliseren).
  • Kostenbeheer door het aggregatiesgebruik te beperken.
  • Nalevingsgrenzen voor gereguleerde workloads (voorspelbare gebruiksdrempels afdwingen).

Tokenlimieten configureren

U kunt tokenlimieten configureren voor specifieke modelimplementaties binnen uw projecten:

  1. Meld u aan bij Microsoft Foundry. Zorg ervoor dat de wisselknop New Foundry is ingeschakeld. Deze stappen verwijzen naar Foundry (nieuw).

  2. Selecteer Bedienen>Beheerder.

  3. Selecteer in de lijst ai-gateway de gateway die u wilt gebruiken.

  4. Selecteer Tokenbeheer in het detailvenster van de gateway dat wordt weergegeven.

  5. Selecteer + Limiet instellen om een nieuwe limiet voor een modelimplementatie te maken.

  6. Selecteer het project en de implementatie die u wilt beperken en voer een waarde in voor Limiet (token per minuut).

  7. Selecteer Maken om uw wijzigingen op te slaan.

Schermopname van het deelvenster Projectinstellingen met invoervakken voor tokens per minuut en de totale quotumlimieten voor tokens.

Inzicht in quotumvensters

Tokenlimieten hebben twee aanvullende afdwingingsdimensies:

  • TPM-frequentielimiet: beperkt tokenverbruik tot een geconfigureerd maximum per minuut. Wanneer aanvragen de TPM-limiet overschrijden, ontvangt de aanroeper een 429 Too Many Requests antwoordstatuscode.

  • Totaal tokenquotum: beperkt tokenverbruik tot een geconfigureerd maximum per quotumperiode (bijvoorbeeld per uur, dagelijks, wekelijks, maandelijks of jaarlijks). Wanneer aanvragen het quotum overschrijden, ontvangt de aanroeper een 403 Forbidden antwoordstatuscode.

Als u veel aanvragen gelijktijdig verzendt, kan tokenverbruik de geconfigureerde limieten tijdelijk overschrijden totdat antwoorden worden verwerkt.

Het aanpassen van een quotum of TPM-waarde is van invloed op volgende afdwingingsbeslissingen.

Zie AI-gateway in Azure API Management en Limit large language model API token usage voor meer informatie.

Afdwingen controleren

  1. Testaanvragen verzenden naar een eindpunt voor modelimplementatie met behulp van de gateway-URL en sleutel van het project.

  2. Verhoog de aanvraagfrequentie geleidelijk totdat de TPM-limiet wordt geactiveerd.

  3. Volg cumulatieve tokens totdat de quotumtriggers worden geactiveerd.

  4. Valideer dat:

    • 429 Too Many Requests (frequentiebeperkingsreactie) wordt geretourneerd wanneer aanvragen de TPM-limiet overschrijden.
    • 403 Forbidden (quotumfout) wordt geretourneerd wanneer aanvragen het quotum uitputten.

Limieten aanpassen

  1. Ga terug naar de AI Gateway-instellingen van het project.

  2. TPM- of quotumwaarden wijzigen.

  3. Sla de wijzigingen op. Nieuwe limieten zijn onmiddellijk van toepassing op volgende aanvragen.

Problemen oplossen

Probleem Mogelijke oorzaak Actie
API Management-instantie wordt niet weergegeven Voorzieningsvertraging Vernieuw na een paar minuten.
Limieten worden niet afgedwongen Onjuiste configuratie of project niet gekoppeld Open de instellingen opnieuw en controleer of de wisselknop voor afdwingen is ingeschakeld. Controleer of de AI-gateway is ingeschakeld voor het project en of de juiste limieten zijn geconfigureerd.
Latentie is hoog na inschakeling Cold start of regiomismatch van API-beheer Controleer de API Management-regio versus de resource-regio. Roep het model rechtstreeks aan en vergelijk het resultaat met de aanroep die is geproxied via de AI-gateway om te bepalen of prestatieproblemen betrekking hebben op de gateway.

Als de beheerconsole traag is, probeert u het na een kort interval opnieuw.