Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Belangrijk
Deze functie bevindt zich in de bètaversie. Accountbeheerders kunnen de toegang tot deze functie beheren via de pagina Previews van de accountconsole. Zie Azure Databricks previews beheren.
Op deze pagina wordt beschreven hoe u frequentielimieten configureert voor Unity AI Gateway-eindpunten . Met frequentielimieten kunt u verbruikslimieten afdwingen op een eindpunt om capaciteit en kosten te beheren.
Requirements
- Unity AI Gateway Preview ingeschakeld voor uw account. Zie Azure Databricks previews beheren.
- Een Azure Databricks-werkruimte in een Unity AI Gateway-ondersteunde regio.
Frequentielimieten voor een eindpunt configureren
U kunt het aantal query's per minuut (QPM) of tokens per minuut (TPM) beheren en opgeven die uw eindpunt kan ondersteunen.
Als u frequentielimieten wilt inschakelen, selecteert u Frequentielimieten bij het configureren van uw Unity AI Gateway-eindpunt. U kunt frequentielimieten op basis van query's en tokens definiëren op de volgende niveaus:
| Veld | Beschrijving |
|---|---|
| Eindpunt | Geef het maximum aantal QPM of TPM op dat door het gehele eindpunt kan worden verwerkt. Deze limiet geldt voor al het verkeer, ongeacht de gebruiker. |
| Gebruiker (standaard) | Geef een standaardfrequentielimiet per gebruiker op die van toepassing is op alle gebruikers van het eindpunt, tenzij er een specifiekere, aangepaste frequentielimiet is gedefinieerd. |
| Aangepaste frequentielimieten | Aangepaste frequentielimieten kunnen worden opgegeven voor:
|
Details en gedrag
- Frequentielimieten zijn alleen van toepassing op gebruikers met toestemming om een query uit te voeren op het eindpunt.
- Standaard zijn er geen frequentielimieten geconfigureerd voor gebruikers of het eindpunt.
- De frequentielimiet voor eindpunten is een globaal maximum. Als deze limiet wordt overschreden, worden alle aanvragen naar het eindpunt geblokkeerd, ongeacht gebruikersspecifieke of groepsspecifieke frequentielimieten.
- Als een eindpunt, gebruiker of service-principal zowel een frequentielimiet op basis van query's als een op tokens gebaseerde frequentielimiet heeft opgegeven, wordt de meer beperkende frequentielimiet afgedwongen.
- Aangepaste frequentielimieten overschrijven de frequentielimiet van de gebruiker (standaard ).
- Als een gebruiker deel uitmaakt van zowel een gebruikersspecifieke limiet als een groepsspecifieke limiet, wordt de gebruikersspecifieke limiet afgedwongen.
- Als een gebruiker deel uitmaakt van meerdere gebruikersgroepen met verschillende QPM- of TPM-frequentielimieten, is de gebruiker beperkt als deze alle QPM-frequentielimieten of alle TPM-frequentielimieten van hun gebruikersgroepen overschrijdt.
Gedrag van snelheidsbegrenzer
Wanneer een frequentielimiet wordt overschreden, retourneert het eindpunt een HTTP 429-antwoord (Te veel aanvragen). Clients moeten herhaal-logica met exponentiële terugval implementeren.
De snelheidsbegrenzer is ontworpen voor lage latentie, wat betekent dat de volgende gedragingen worden verwacht:
- Gelijktijdige aanvragen worden niet vooraf gecontroleerd. Het systeem registreert het gebruik nadat een antwoord is verzonden, dus als meerdere aanvragen op hetzelfde moment binnenkomen, kunnen ze allemaal doorlopen voordat het gebruik wordt geteld. Latere aanvragen worden vervolgens geweigerd totdat de capaciteit wordt hersteld. In de praktijk kunt u pieken in verkeer zien, gevolgd door korte pauzes in een herhalend patroon.
- Limieten worden onafhankelijk afgedwongen voor service-exemplaren, waardoor er korte bursts kunnen optreden die iets boven de geconfigureerde limiet liggen, vooral direct nadat een eindpunt is gemaakt of bijgewerkt.
Gedurende een langere periode wordt de gemiddelde aanvraagsnelheid geconvergeerd naar de geconfigureerde limiet.
Beperkingen
- U kunt maximaal 20 frequentielimieten per eindpunt opgeven.
- U kunt maximaal vijf groepsspecifieke frequentielimieten per eindpunt opgeven.