Aktivera prioritetsbearbetning för Microsoft Foundry-modeller

Prioritetsbearbetning ger prestanda med låg latens med flexibiliteten att betala per användning. I den här artikeln aktiverar du prioritetsbearbetning för en modelldistribution, kontrollerar vilken tjänstnivå som bearbetat dina begäranden och övervakar associerade kostnader.

Förutsättningar

  • En Azure-prenumeration – Skapa en kostnadsfri.
  • Ett Microsoft Foundry-projekt med en modell av distributionstypen GlobalStandard eller DataZoneStandard distribuerad.
  • Modellversioner 2025-12-01 eller senare.

Viktiga användningsfall

  • Konsekvent, låg svarstid för dynamiska användarupplevelser.
  • Enkelhet med betalning per användning utan långsiktiga åtaganden.
  • Kontorstid eller intensiv trafik som drar nytta av skalbar, kostnadseffektiv prestanda. Eventuellt kan du kombinera prioritetsbearbetning med Provisioned Throughput Units (PTU) för kapacitet i stabilt tillstånd och kostnadsoptimering.

Mål för svarstid

Modell Målvärde för svarstid2
gpt-5.4, 2026-03-051 99% > 50 token per sekund
gpt-5.2, 2025-12-11 99% > 50 token per sekund
gpt-5.1, 2025-11-13 99% > 50 token per sekund
gpt-4.1, 2025-04-141 99% > 80 token per sekund

1 Långa kontextbegäranden (d.v.s. begäranden som uppskattas till större än 128 000 prompttoken) nedgraderas till standardbearbetning och du debiteras enligt standardnivån.

2 Beräknad som p50-begärandefördröjning per 5 minuters basis.

Prioritetsbearbetningstillgänglighet efter distributionstyp

Prioritetsbearbetning kan aktiveras i globala standardimplementationer eller standardimplementationer för datazon (USA). Prisinformation finns i prissidan Azure OpenAI.

Global standardmodelltillgänglighet

Regionen gpt-5.5, 2026-04-24 gpt-5.4-mini, 2026-03-17 gpt-5.4, 2026-03-05 gpt-5.2, 2025-12-11 gpt-5.1, 2025-11-13 gpt-4.1, 2025-04-14
australiaeast -
brazilsouth -
canadacentral -
Östkusten av Kanada -
centralus -
eastus -
francecentral -
germanywestcentral -
italynorth -
japaneast -
koreacentral -
northcentralus -
norwayeast -
polencentral
southafricanorth -
southcentralus
southeastasia -
Södra Indien -
spaincentral -
swedencentral
switzerlandnorth -
Schweizväst -
uaenorth -
uksouth -
westeurope -
westus -
westus3 -

Aktivera prioritetsbearbetning på distributionsnivå

Du kan aktivera prioritetsbearbetning på distributionsnivå och (valfritt) på begärandenivå.

Observera

Prioritetsbearbetning kan aktiveras i distributioner av Global standard eller Data Zone Standard (USA). Prioritetsbearbetning använder samma kvot som standardbearbetning.

I portalen Microsoft Foundry aktiverar du växeln för Prioritetsbearbetning på sidan med distributionsinformation när du skapar distributionen, eller så uppdaterar du inställningen för den distribuerade modellen genom att redigera distributionsinformationen.

Skärmbild som visar hur du aktiverar prioritetsbearbetning under modelldistributionen i Foundry-portalen.

Observera

Om du föredrar att använda kod för att aktivera prioritetsbearbetning på distributionsnivå kan du göra det via REST-API:et för distribution genom att ange service_tier attributet enligt följande: "properties" : {"service_tier" : "priority"}. Tillåtna värden för attributet service_tier är default och priority. default innebär standardbearbetning, medan priority möjliggör prioritetsbearbetning.

När en modelldistribution har konfigurerats för att använda prioritetsbearbetning kan du börja skicka begäranden till modellen.

Visa användningsstatistik

Du kan visa användningsmåttet för resursen i avsnittet Azure Monitor i Azure portalen.

Om du vill visa mängden begäranden som bearbetas av standardbearbetning jämfört med prioritetsbearbetning, delas du upp efter tjänstnivån (standard eller prioritet) som fanns i den ursprungliga begäran:

  1. Logga in till https://portal.azure.com.
  2. Gå till din Azure OpenAI-resurs och välj alternativet Metrics i det vänstra navigeringsfältet.
  3. På sidan för mått lägger du till måttet Azure OpenAI requests. Du kan också välja andra mått som Azure OpenAI-svarstid, Azure OpenAI-användning och andra.
  4. Välj Lägg till filter för att välja den standarddistribution för vilken begäranden om prioritetsbearbetning bearbetades.
  5. Välj Använd delning för att dela upp värdena efter ServiceTierRequest och ServiceTierResponse.

Skärmbild av den prioriterade bearbetningsanvändningen på resursens måttsida i Azure portal.

Mer information om hur du övervakar dina distributioner finns i Övervaka Azure OpenAI.

Övervaka kostnader

Du kan se en uppdelning av kostnader för prioritets- och standardbegäranden på Azure portalens kostnadsanalyssida genom att filtrera efter distributionsnamn och faktureringstaggar på följande sätt:

  1. Gå till kostnadsanalyssidan i Azure-portalen.
  2. (Valfritt) Filtrera efter resurs.
  3. Filtrera efter distributionsnamn: Lägg till ett filter för faktureringstagg> och välj distribution som värde och välj sedan distributionsnamnet.

Skärmbild av den prioriterade bearbetningsanvändningen på resursens kostnadsanalyssida i Azure portal.

Information om priser för prioritetsbearbetning finns i prisöversikten Azure OpenAI Service.

Aktivera prioritetsbearbetning på begäransnivå

Det är valfritt att aktivera prioritetsbearbetning på begärandenivå. Både API:et för chattavslut och svars-API:et har ett valfritt attribut service_tier som anger vilken bearbetningstyp som ska användas när en begäran skickas. I följande exempel visas hur du anger service_tier till priority i en svarsbegäran.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

service_tier Använd attributet för att åsidosätta inställningen på distributionsnivå. service_tier kan ta värdena auto, defaultoch priority.

  • Om du inte anger attributet är det standardvärdet auto.

  • service_tier = auto innebär att begäran använder den tjänstnivå som konfigurerats i distributionen.

  • service_tier = default innebär att begäran använder standardpriser och prestanda för den valda modellen.

  • service_tier = priority innebär att begäran använder tjänstnivån för prioritetsbearbetning.

I följande tabell sammanfattas vilken tjänstnivå som bearbetar dina begäranden baserat på inställningarna på distributionsnivå och begärandenivå för service_tier.

Inställning på distributionsnivå Inställning för begärandenivå Begäran bearbetad efter tjänstnivå
Standard auto, standard Standard
Standard Prioritet Prioritetsbearbetning
Prioritet auto, prioritet Prioritetsbearbetning
Prioritet Standard Standard

Begränsningar

  • Tjänsten stöder för närvarande inte regionala standarddistributioner och EU-datazonstandarddistributioner.

  • Tjänsten kan omdirigera vissa prioritetsbegäranden till standardbearbetning* under dessa scenarier:

    • Om snabba ökningar av dina prioritetsbearbetningstoken per minut leder till att ramphastighetsbegränsningarna överskrids. För närvarande definieras gränsen för ramphastighet som att öka trafiken med mer än 50% tokens per minut på under 15 minuter.
    • Under perioder med toppbegäranden till prioritetsbearbetning.
    • Långa kontextförfrågningar som skickas till vissa modeller som anges i latensmåltabellen.

    Tips

    Om du rutinmässigt stöter på ramphastighetsgränser bör du överväga att köpa PTU i stället för eller utöver prioriterad bearbetning.

    * Tjänsten fakturerar begäranden som bearbetas av standardtjänstnivån till standardpriser. Begäranden som bearbetas av standardtjänstnivån ingår service_tier = default i svaret, medan begäranden som bearbetas av prioritetsbearbetningsnivån inkluderar service_tier = priority i svaret.

Felsökning

Frågan Orsak Upplösning
Begäranden nedgraderade till standardnivå En av dessa situationer:
- Trafiken ökade med mer än 50% token per minut på mindre än 15 minuter och nådde gränsen för ramphastigheten.
– Begäranden som skickas under perioder med toppbegäranden till prioritetsbearbetning.
– Långa kontextbegäranden som skickas till vissa modeller som anges i måltabellen För svarstid.
– Öka trafiken gradvis om du har stött på hastighetsbegränsningar för ramper.
– Överväg att köpa PTU för stabil kapacitet.