Framtvinga tokengränser för modeller

Microsoft Foundry Control Plane framtvingar TPM-hastighetsbegränsningar (token per minut) och totala tokenkvoter för modelldistributioner i projektomfånget. Den här tillämpningen förhindrar okontrollerad förbrukning av token och anpassar användningen efter organisationens riktlinjer. Foundry Control Plane integreras med AI-gatewayer för att tillhandahålla avancerad principframtvingande för modeller.

Den här artikeln beskriver hur du konfigurerar begränsning av tokenhastighet och tokenkvoter.

Förutsättningar

Förstå AI-gatewayer

När du använder en AI-gateway med Foundry Control Plane för att tillhandahålla avancerad policyefterlevnad för modeller placeras AI-gatewayen mellan klienter och modelldistributioner. Det gör att alla begäranden flödar via DEN API Management-instans som är associerad med den.

Gränser gäller på projektnivå. Varje projekt kan alltså ha sina egna TPM- och kvotinställningar.

Diagram över det logiska flödet av klientbegäranden som passerar genom Azure API Management som en AI-gateway innan modellimplementeringar inom ett projekt.

Använd en AI-gateway för:

  • Token-inneslutning med flera team (förhindra att ett projekt monopoliserar kapaciteten).
  • Kostnadskontroll genom att begränsa aggregerad användning.
  • Efterlevnadsgränser för reglerade arbetsbelastningar (framtvinga förutsägbara användningstak).

Konfigurera tokenbegränsningar

Du kan konfigurera tokengränser för specifika modelldistributioner i dina projekt:

  1. Logga in på Microsoft Foundry. Kontrollera att växlingsknappen New Foundry är aktiverad. De här stegen hänvisar till Foundry (ny).

  2. Välj Hantera>administratör.

  3. I listan AI Gateway väljer du den gateway som du vill använda.

  4. I den visade gatewayinformationsrutan väljer du Tokenhantering.

  5. Välj + Ange gräns för att skapa en ny gräns för en modelldistribution.

  6. Välj det projekt och den distribution som du vill begränsa och ange ett värde för Gräns (token per minut).

  7. Spara ändringarna genom att välja Skapa .

Skärmbild av fönstret projektinställningar som visar indatarutor för token per minut och total kvotgräns för token.

Förstå kvotfönster

Tokenbegränsningar har två kompletterande tvingande dimensioner:

  • TPM-hastighetsgräns: Begränsar tokenförbrukningen till ett konfigurerat maxvärde per minut. När begäranden överskrider TPM-gränsen får anroparen en 429 Too Many Requests svarsstatuskod.

  • Total tokenkvot: Begränsar tokenförbrukningen till ett konfigurerat maxvärde per kvotperiod (till exempel varje timme, varje dag, vecka, månad eller år). När begäranden överskrider kvoten får anroparen en 403 Forbidden svarsstatuskod.

Om du skickar många begäranden samtidigt kan tokenförbrukningen tillfälligt överskrida de konfigurerade gränserna tills svar bearbetas.

Om du justerar en kvot eller ett TPM-värde påverkas efterföljande verkställighetsbeslut.

Mer information finns i AI gateway i Azure API Management och Limit large language model API token usage.

Verifiera efterlevnad

  1. Skicka testbegäranden till en modelldistributionsslutpunkt med hjälp av projektets gateway-URL och nyckel.

  2. Öka begärandefrekvensen gradvis tills TPM-gränsen utlöses.

  3. Spåra kumulativa token tills kvoten utlöses.

  4. Verifiera att:

    • 429 Too Many Requests (frekvensbegränsat svar) returneras när begäranden överskrider TPM-gränsen.
    • 403 Forbidden (kvotfel) returneras när begäranden överskrider kvoten.

Justera gränser

  1. Gå tillbaka till projektets AI Gateway-inställningar .

  2. Ändra TPM- eller kvotvärden.

  3. Spara ändringarna. Nya gränser gäller omedelbart för efterföljande begäranden.

Felsöka

Problem Möjlig orsak Åtgärder
API Management-instansen visas inte Provisioneringsfördröjning Uppdatera efter några minuter.
Gränser tillämpas inte Felkonfiguration eller projekt som inte är länkat Öppna inställningarna igen och bekräfta att reglaget är aktiverat. Bekräfta att AI-gatewayen är aktiverad för projektet och att rätt gränser har konfigurerats.
Svarstiden är hög efter aktivering Fel vid kallstart av API Management eller regionsmatchning Kontrollera API Management-regionen jämfört med resursregionen. Anropa modellen direkt och jämför resultatet med anropet via AI-gatewayen för att identifiera om prestandaproblem är relaterade till gatewayen.

Om administratörskonsolen är långsam försöker du igen efter ett kort intervall.