Framtvinga tokengränser för modeller

Microsoft Foundry Control Plane framtvingar TPM-hastighetsbegränsningar (token per minut) och totala tokenkvoter för modelldistributioner i projektomfånget. Den här tillämpningen förhindrar okontrollerad förbrukning av token och anpassar användningen efter organisationens riktlinjer. Foundry Control Plane integreras med AI-gatewayer för att tillhandahålla avancerad principframtvingande för modeller.

Den här artikeln beskriver hur du konfigurerar begränsning av tokenhastighet och tokenkvoter.

Förutsättningar

Ett Azure konto med en aktiv prenumeration. Om du inte har ett skapar du ett fritt Azure konto, som innehåller en kostnadsfri utvärderingsprenumeration.
En Foundry-resurs med en AI-gateway konfigurerad. Läs mer om hur du aktiverar en AI-gateway för en Foundry-resurs.
Ett Foundry-projekt med en distribuerad modell som lagts till i den konfigurerade AI-gatewayen. Om du vill aktivera en AI-gateway för ett projekt behöver du rollen API Management Service-deltagare (eller Owner) på Azure API Management resursen.

Förstå AI-gatewayer

När du använder en AI-gateway med Foundry Control Plane för att tillhandahålla avancerad policyefterlevnad för modeller placeras AI-gatewayen mellan klienter och modelldistributioner. Det gör att alla begäranden flödar via DEN API Management-instans som är associerad med den.

Gränser gäller på projektnivå. Varje projekt kan alltså ha sina egna TPM- och kvotinställningar.

Använd en AI-gateway för:

Token-inneslutning med flera team (förhindra att ett projekt monopoliserar kapaciteten).
Kostnadskontroll genom att begränsa aggregerad användning.
Efterlevnadsgränser för reglerade arbetsbelastningar (framtvinga förutsägbara användningstak).

Konfigurera tokenbegränsningar

Du kan konfigurera tokengränser för specifika modelldistributioner i dina projekt:

Logga in på Microsoft Foundry. Kontrollera att växlingsknappen New Foundry är aktiverad. De här stegen hänvisar till Foundry (ny).
Välj Hantera>administratör.
I listan AI Gateway väljer du den gateway som du vill använda.
I den visade gatewayinformationsrutan väljer du Tokenhantering.
Välj + Ange gräns för att skapa en ny gräns för en modelldistribution.
Välj det projekt och den distribution som du vill begränsa och ange ett värde för Gräns (token per minut).
Spara ändringarna genom att välja Skapa .

Förstå kvotfönster

Tokenbegränsningar har två kompletterande tvingande dimensioner:

TPM-hastighetsgräns: Begränsar tokenförbrukningen till ett konfigurerat maxvärde per minut. När begäranden överskrider TPM-gränsen får anroparen en 429 Too Many Requests svarsstatuskod.
Total tokenkvot: Begränsar tokenförbrukningen till ett konfigurerat maxvärde per kvotperiod (till exempel varje timme, varje dag, vecka, månad eller år). När begäranden överskrider kvoten får anroparen en 403 Forbidden svarsstatuskod.

Om du skickar många begäranden samtidigt kan tokenförbrukningen tillfälligt överskrida de konfigurerade gränserna tills svar bearbetas.

Om du justerar en kvot eller ett TPM-värde påverkas efterföljande verkställighetsbeslut.

Mer information finns i AI gateway i Azure API Management och Limit large language model API token usage.

Verifiera efterlevnad

Skicka testbegäranden till en modelldistributionsslutpunkt med hjälp av projektets gateway-URL och nyckel.
Öka begärandefrekvensen gradvis tills TPM-gränsen utlöses.
Spåra kumulativa token tills kvoten utlöses.
Verifiera att:
- 429 Too Many Requests (frekvensbegränsat svar) returneras när begäranden överskrider TPM-gränsen.
- 403 Forbidden (kvotfel) returneras när begäranden överskrider kvoten.

Justera gränser

Gå tillbaka till projektets AI Gateway-inställningar .
Ändra TPM- eller kvotvärden.
Spara ändringarna. Nya gränser gäller omedelbart för efterföljande begäranden.

Felsöka

Problem	Möjlig orsak	Åtgärder
API Management-instansen visas inte	Provisioneringsfördröjning	Uppdatera efter några minuter.
Gränser tillämpas inte	Felkonfiguration eller projekt som inte är länkat	Öppna inställningarna igen och bekräfta att reglaget är aktiverat. Bekräfta att AI-gatewayen är aktiverad för projektet och att rätt gränser har konfigurerats.
Svarstiden är hög efter aktivering	Fel vid kallstart av API Management eller regionsmatchning	Kontrollera API Management-regionen jämfört med resursregionen. Anropa modellen direkt och jämför resultatet med anropet via AI-gatewayen för att identifiera om prestandaproblem är relaterade till gatewayen.

Om administratörskonsolen är långsam försöker du igen efter ett kort intervall.

Feedback

Var den här sidan till hjälp?

Last updated on 2026-04-30