Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Prioritetsbearbetning ger prestanda med låg latens med flexibiliteten att betala per användning. I den här artikeln aktiverar du prioritetsbearbetning för en modelldistribution, kontrollerar vilken tjänstnivå som bearbetat dina begäranden och övervakar associerade kostnader.
Förutsättningar
- En Azure-prenumeration – Skapa en kostnadsfri.
- Ett Microsoft Foundry-projekt med en modell av distributionstypen
GlobalStandardellerDataZoneStandarddistribuerad. - Modellversioner
2025-12-01eller senare.
Viktiga användningsfall
- Konsekvent, låg svarstid för dynamiska användarupplevelser.
- Enkelhet med betalning per användning utan långsiktiga åtaganden.
- Kontorstid eller intensiv trafik som drar nytta av skalbar, kostnadseffektiv prestanda. Eventuellt kan du kombinera prioritetsbearbetning med Provisioned Throughput Units (PTU) för kapacitet i stabilt tillstånd och kostnadsoptimering.
Mål för svarstid
| Modell | Målvärde för svarstid2 |
|---|---|
| gpt-5.4, 2026-03-051 | 99% > 50 token per sekund |
| gpt-5.2, 2025-12-11 | 99% > 50 token per sekund |
| gpt-5.1, 2025-11-13 | 99% > 50 token per sekund |
| gpt-4.1, 2025-04-141 | 99% > 80 token per sekund |
1 Långa kontextbegäranden (d.v.s. begäranden som uppskattas till större än 128 000 prompttoken) nedgraderas till standardbearbetning och du debiteras enligt standardnivån.
2 Beräknad som p50-begärandefördröjning per 5 minuters basis.
Prioritetsbearbetningstillgänglighet efter distributionstyp
Prioritetsbearbetning kan aktiveras i globala standardimplementationer eller standardimplementationer för datazon (USA). Prisinformation finns i prissidan Azure OpenAI.
Global standardmodelltillgänglighet
| Regionen | gpt-5.5, 2026-04-24 | gpt-5.4-mini, 2026-03-17 | gpt-5.4, 2026-03-05 | gpt-5.2, 2025-12-11 | gpt-5.1, 2025-11-13 | gpt-4.1, 2025-04-14 |
|---|---|---|---|---|---|---|
| australiaeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| brazilsouth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| canadacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Östkusten av Kanada | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| centralus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| francecentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| germanywestcentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| italynorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| japaneast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| koreacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| northcentralus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| norwayeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| polencentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southafricanorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| southcentralus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southeastasia | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Södra Indien | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| spaincentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| swedencentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| switzerlandnorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Schweizväst | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| uaenorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| uksouth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westeurope | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus3 | - | ✅ | ✅ | ✅ | ✅ | ✅ |
Aktivera prioritetsbearbetning på distributionsnivå
Du kan aktivera prioritetsbearbetning på distributionsnivå och (valfritt) på begärandenivå.
Observera
Prioritetsbearbetning kan aktiveras i distributioner av Global standard eller Data Zone Standard (USA). Prioritetsbearbetning använder samma kvot som standardbearbetning.
I portalen Microsoft Foundry aktiverar du växeln för Prioritetsbearbetning på sidan med distributionsinformation när du skapar distributionen, eller så uppdaterar du inställningen för den distribuerade modellen genom att redigera distributionsinformationen.
Observera
Om du föredrar att använda kod för att aktivera prioritetsbearbetning på distributionsnivå kan du göra det via REST-API:et för distribution genom att ange service_tier attributet enligt följande: "properties" : {"service_tier" : "priority"}. Tillåtna värden för attributet service_tier är default och priority.
default innebär standardbearbetning, medan priority möjliggör prioritetsbearbetning.
När en modelldistribution har konfigurerats för att använda prioritetsbearbetning kan du börja skicka begäranden till modellen.
Visa användningsstatistik
Du kan visa användningsmåttet för resursen i avsnittet Azure Monitor i Azure portalen.
Om du vill visa mängden begäranden som bearbetas av standardbearbetning jämfört med prioritetsbearbetning, delas du upp efter tjänstnivån (standard eller prioritet) som fanns i den ursprungliga begäran:
- Logga in till https://portal.azure.com.
- Gå till din Azure OpenAI-resurs och välj alternativet Metrics i det vänstra navigeringsfältet.
- På sidan för mått lägger du till måttet Azure OpenAI requests. Du kan också välja andra mått som Azure OpenAI-svarstid, Azure OpenAI-användning och andra.
- Välj Lägg till filter för att välja den standarddistribution för vilken begäranden om prioritetsbearbetning bearbetades.
- Välj Använd delning för att dela upp värdena efter ServiceTierRequest och ServiceTierResponse.
Mer information om hur du övervakar dina distributioner finns i Övervaka Azure OpenAI.
Övervaka kostnader
Du kan se en uppdelning av kostnader för prioritets- och standardbegäranden på Azure portalens kostnadsanalyssida genom att filtrera efter distributionsnamn och faktureringstaggar på följande sätt:
- Gå till kostnadsanalyssidan i Azure-portalen.
- (Valfritt) Filtrera efter resurs.
- Filtrera efter distributionsnamn: Lägg till ett filter för faktureringstagg> och välj distribution som värde och välj sedan distributionsnamnet.
Information om priser för prioritetsbearbetning finns i prisöversikten Azure OpenAI Service.
Aktivera prioritetsbearbetning på begäransnivå
Det är valfritt att aktivera prioritetsbearbetning på begärandenivå. Både API:et för chattavslut och svars-API:et har ett valfritt attribut service_tier som anger vilken bearbetningstyp som ska användas när en begäran skickas. I följande exempel visas hur du anger service_tier till priority i en svarsbegäran.
curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
-d '{
"model": "gpt-4.1",
"input": "This is a test",
"service_tier": "priority"
}'
service_tier Använd attributet för att åsidosätta inställningen på distributionsnivå.
service_tier kan ta värdena auto, defaultoch priority.
Om du inte anger attributet är det standardvärdet
auto.service_tier = autoinnebär att begäran använder den tjänstnivå som konfigurerats i distributionen.service_tier = defaultinnebär att begäran använder standardpriser och prestanda för den valda modellen.service_tier = priorityinnebär att begäran använder tjänstnivån för prioritetsbearbetning.
I följande tabell sammanfattas vilken tjänstnivå som bearbetar dina begäranden baserat på inställningarna på distributionsnivå och begärandenivå för service_tier.
| Inställning på distributionsnivå | Inställning för begärandenivå | Begäran bearbetad efter tjänstnivå |
|---|---|---|
| Standard | auto, standard | Standard |
| Standard | Prioritet | Prioritetsbearbetning |
| Prioritet | auto, prioritet | Prioritetsbearbetning |
| Prioritet | Standard | Standard |
Begränsningar
Tjänsten stöder för närvarande inte regionala standarddistributioner och EU-datazonstandarddistributioner.
Tjänsten kan omdirigera vissa prioritetsbegäranden till standardbearbetning* under dessa scenarier:
- Om snabba ökningar av dina prioritetsbearbetningstoken per minut leder till att ramphastighetsbegränsningarna överskrids. För närvarande definieras gränsen för ramphastighet som att öka trafiken med mer än 50% tokens per minut på under 15 minuter.
- Under perioder med toppbegäranden till prioritetsbearbetning.
- Långa kontextförfrågningar som skickas till vissa modeller som anges i latensmåltabellen.
Tips
Om du rutinmässigt stöter på ramphastighetsgränser bör du överväga att köpa PTU i stället för eller utöver prioriterad bearbetning.
* Tjänsten fakturerar begäranden som bearbetas av standardtjänstnivån till standardpriser. Begäranden som bearbetas av standardtjänstnivån ingår
service_tier = defaulti svaret, medan begäranden som bearbetas av prioritetsbearbetningsnivån inkluderarservice_tier = priorityi svaret.
Felsökning
| Frågan | Orsak | Upplösning |
|---|---|---|
| Begäranden nedgraderade till standardnivå | En av dessa situationer: - Trafiken ökade med mer än 50% token per minut på mindre än 15 minuter och nådde gränsen för ramphastigheten. – Begäranden som skickas under perioder med toppbegäranden till prioritetsbearbetning. – Långa kontextbegäranden som skickas till vissa modeller som anges i måltabellen För svarstid. |
– Öka trafiken gradvis om du har stött på hastighetsbegränsningar för ramper. – Överväg att köpa PTU för stabil kapacitet. |