Konfigurera hastighetsgränser för Unity AI Gateway-slutpunkter

Viktigt!

Den här funktionen finns i Beta. Kontoadministratörer kan styra åtkomsten till den här funktionen från sidan förhandsversioner av kontokonsolen. Se Hantera Azure Databricks förhandsversioner.

På den här sidan beskrivs hur du konfigurerar hastighetsgränser för Unity AI Gateway-slutpunkter . Med hastighetsbegränsningar kan du tillämpa förbrukningsgränser på en slutpunkt för att hantera kapacitet och kostnader.

Requirements

Förhandsversionen av Unity AI Gateway är aktiverad för ditt konto. Se Hantera Azure Databricks förhandsversioner.
En Azure Databricks arbetsyta i en Unity AI Gateway-stödd region.

Konfigurera hastighetsbegränsningar för en slutpunkt

Du kan hantera och ange antalet frågor per minut (QPM) eller token per minut (TPM) som slutpunkten kan stödja.

Om du vill aktivera hastighetsgränser väljer du Frekvensgränser när du konfigurerar din Unity AI Gateway-slutpunkt. Du kan definiera frågebaserade och tokenbaserade hastighetsgränser på följande nivåer:

Fält	Beskrivning
Slutpunkt	Ange den maximala QPM eller TPM som hela slutpunkten kan hantera. Den här gränsen gäller för all trafik, oavsett användare.
Användare (standard)	Ange en standardfrekvensgräns per användare som gäller för alla användare av slutpunkten, såvida inte en mer specifik anpassad hastighetsgräns har definierats.
Anpassade hastighetsgränser	Anpassade hastighetsgränser kan anges för: Enskilda användare eller tjänstens huvudnamn: Dessa prioriteras framför anpassade hastighetsgränser för användargrupper. Användargrupper: Den här gränsen är en delad hastighetsgräns för alla medlemmar i gruppen.

Information och beteende

Hastighetsbegränsningar gäller endast för användare med behörighet att fråga till slutpunkten.
Som standard finns det inga hastighetsgränser som konfigurerats för användare eller slutpunkten.
Gränsen för slutpunktsfrekvens är ett globalt maximum. Om den här gränsen överskrids blockeras alla begäranden till slutpunkten, oavsett användarspecifika eller gruppspecifika hastighetsgränser.
Om en slutpunkt, användare eller tjänstens huvudnamn har både en frågebaserad hastighetsgräns och en tokenbaserad hastighetsgräns angiven tillämpas den mer restriktiva hastighetsgränsen.
Anpassade hastighetsgränser åsidosätter hastighetsgränsen användare (standard ).
- Om en användare tillhör både en användarspecifik gräns och en gruppspecifik gräns tillämpas den användarspecifika gränsen.
- Om en användare tillhör flera användargrupper med olika QPM- eller TPM-hastighetsgränser är användaren begränsad om de överskrider alla QPM-hastighetsgränser eller alla TPM-hastighetsgränser för sina användargrupper.

Beteende för hastighetsbegränsare

När en hastighetsgräns överskrids returnerar slutpunkten ett HTTP 429-svar (för många begäranden). Klienter bör implementera återförsökslogik med exponentiell backoff.

Hastighetsbegränsningen är utformad för låg svarstid, vilket innebär att följande beteenden förväntas:

Samtidiga begäranden kontrolleras inte i förväg. Systemet registrerar användning när ett svar har skickats, så om flera begäranden tas emot samtidigt kan alla gå igenom innan användningen räknas. Senare begäranden avvisas sedan tills kapaciteten återställs. I praktiken kan du se trafiktoppar följt av korta pauser i ett upprepande mönster.
Gränser tillämpas oberoende av tjänstinstanser, så korta intervall som ligger något över den konfigurerade gränsen kan inträffa, särskilt direkt efter att en slutpunkt har skapats eller uppdaterats.

Under en längre tidsperiod konvergerar den genomsnittliga begärandefrekvensen till den konfigurerade gränsen.

Begränsningar

Du kan ange högst 20 hastighetsgränser per slutpunkt.
Du kan ange högst 5 gruppspecifika hastighetsgränser per slutpunkt.

Nästa steg

Feedback

Var den här sidan till hjälp?

Last updated on 2026-04-25