Prioriteitsverwerking inschakelen voor Microsoft Foundry-modellen

Prioriteitsverwerking biedt prestaties met lage latentie met de flexibiliteit van betalen per gebruik. In dit artikel schakelt u prioriteitsverwerking in voor een modelimplementatie, controleert u welke servicelaag uw aanvragen heeft verwerkt en controleert u de bijbehorende kosten.

Voorwaarden

  • Een Azure-abonnement - Maak er gratis een.
  • Een Microsoft Foundry-project met een model van het implementatietype GlobalStandard of DataZoneStandard geïmplementeerd.
  • Modelversies 2025-12-01 en hoger.

Belangrijke use cases

  • Consistente, lage latentie voor responsieve gebruikerservaringen.
  • Eenvoudig betalen per gebruik zonder langetermijnverplichtingen.
  • Verkeer tijdens kantooruren of burst-verkeer dat profiteert van schaalbare en kostenefficiënte prestaties. U kunt eventueel prioriteitsverwerking combineren met ingerichte doorvoereenheden (PTU) voor een stabiele capaciteit en kostenoptimalisatie.

Latentiedoel

Model Latentiedoelwaarde2
gpt-5.4, 2026-03-051 99% > 50 tokens per seconde
gpt-5.2, 2025-12-11 99% > 50 tokens per seconde
gpt-5.1, 2025-11-13 99% > 50 tokens per seconde
gpt-4.1, 2025-04-141 99% > 80 tokens per seconde

1 Lange contextaanvragen (dat wil gezegd, aanvragen die worden geschat op meer dan 128.000 prompttokens) worden gedowngraded naar de standaardverwerking en er worden kosten in rekening gebracht tegen het tarief van de standaardlaag.

2 Berekend als p50 aanvraaglatentie per 5 minuten.

Beschikbaarheid van prioritaire verwerking per implementatietype

Prioriteitsverwerking kan worden ingeschakeld in algemene standaardimplementaties of implementaties van de Data Zone Standard (VS). Zie de pagina Azure OpenAI-prijzen voor informatie over prijzen.

Wereldwijde beschikbaarheid van standaardmodellen

Regio gpt-5.5, 2026-04-24 gpt-5.4-mini, 2026-03-17 gpt-5.4, 2026-03-05 gpt-5.2, 2025-12-11 gpt-5.1, 2025-11-13 gpt-4.1, 2025-04-14
australiaeast -
brazilsouth -
canadacentral -
canadaeast -
centralus -
eastus -
francecentral -
DuitslandWestCentraal -
italiënorth -
japaneast -
koreacentral -
northcentralus -
noorwegenoost -
Polencentral
Zuid-Afrika Noord -
southcentralus
southeastasia -
Zuid-India -
spaincentral -
swedencentral
zwitserlandnoord -
zwitserlandwest -
uaenorth -
uksouth -
westeurope -
westus -
westus3 -

Prioriteitsverwerking op implementatieniveau inschakelen

U kunt prioriteitsverwerking inschakelen op implementatieniveau en (optioneel) op aanvraagniveau.

Opmerking

Prioriteitsverwerking kan worden ingeschakeld in algemene standaard- of datazonestandaardimplementaties (VS). Prioriteitsverwerking maakt gebruik van hetzelfde quotum als standaardverwerking.

Schakel in het portaal Microsoft Foundry de schakelaar Priority processing aan op de implementatiedetailpagina wanneer u de implementatie maakt of de instelling van een geïmplementeerd model bijwerkt door de implementatiedetails te bewerken.

Schermopname van het inschakelen van prioriteitsverwerking tijdens de modelimplementatie in de Foundry-portal.

Opmerking

Als u liever code gebruikt om prioriteitsverwerking op implementatieniveau in te schakelen, kunt u dit doen via de REST API voor implementatie door het service_tier kenmerk als volgt in te stellen: "properties" : {"service_tier" : "priority"} Toegestane waarden voor het service_tier kenmerk zijn default en priority. default impliceert standaardverwerking, terwijl priority prioriteitsverwerking is ingeschakeld.

Zodra een modelimplementatie is geconfigureerd voor het gebruik van prioriteitsverwerking, kunt u aanvragen verzenden naar het model.

Metrische gegevens over gebruik weergeven

U kunt de gebruiksmeting voor uw resource bekijken in de sectie Azure Monitor in de Azure-portal.

Om het aantal aanvragen weer te geven dat wordt verwerkt door standaardverwerking tegenover prioriteitsverwerking, gesplitst naar de servicelaag (standaard of prioriteit) die in de oorspronkelijke aanvraag werd vermeld:

  1. Meld u aan bij https://portal.azure.com.
  2. Ga naar uw Azure OpenAI-resource en selecteer de optie Metrics in de linkernavigatiebalk.
  3. Op de metrische gegevens pagina, voeg de metric Azure OpenAI-aanvragen toe. U kunt ook andere metrische gegevens selecteren, zoals Azure OpenAI-latentie, Azure OpenAI-gebruik en andere.
  4. Selecteer Filter toevoegen om de standaardimplementatie te selecteren waarvoor aanvragen voor prioriteitsverwerking zijn verwerkt.
  5. Selecteer Splitsen toepassen om de waarden te splitsen op ServiceTierRequest en ServiceTierResponse.

Schermopname van het prioriteitsverwerkingsgebruik op de pagina met metrische gegevens van de resource in de Azure portal.

Zie Monitor Azure OpenAI voor meer informatie over het bewaken van uw implementaties.

Kosten monitoren

U ziet een uitsplitsing van de kosten voor prioriteits- en standaardaanvragen op de pagina kostenanalyse van de Azure portal door als volgt te filteren op de implementatienaam en factureringstags:

  1. Ga naar de pagina kostenanalyse in de Azure portal.
  2. (Optioneel) Filteren op hulpbron.
  3. Als u wilt filteren op implementatienaam: Voeg een filter toe voor de implementatietag> selecteer de implementatie als waarde en kies vervolgens uw implementatienaam.

Scherm van het prioriteitsverwerkingsgebruik op de pagina kostenanalyse van de resource in de Azure portal.

Zie het Azure OpenAI Service prijsoverzicht voor informatie over prijzen voor prioriteitsverwerking.

Prioriteitsverwerking op aanvraagniveau inschakelen

Het inschakelen van prioriteitsverwerking op aanvraagniveau is optioneel. Zowel de API voor voltooiing van de chat als de antwoord-API hebben een optioneel kenmerk service_tier dat het verwerkingstype aangeeft dat moet worden gebruikt bij het leveren van een aanvraag. In het volgende voorbeeld ziet u hoe u service_tier op priority instelt in een antwoordverzoek.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

Gebruik het service_tier kenmerk om de instelling op implementatieniveau te overschrijven. service_tier kan de waarden auto, defaulten priority.

  • Als u het kenmerk niet instelt, wordt het standaard ingesteld op auto.

  • service_tier = auto betekent dat de aanvraag gebruikmaakt van de servicelaag die is geconfigureerd in de implementatie.

  • service_tier = default betekent dat de aanvraag gebruikmaakt van de standaardprijzen en prestaties voor het geselecteerde model.

  • service_tier = priority betekent dat de aanvraag gebruikmaakt van de servicelaag prioriteitsverwerking.

De volgende tabel bevat een overzicht van welke servicelaag uw aanvragen verwerkt op basis van de instellingen op implementatie- en aanvraagniveau voor service_tier.

Instelling op implementatieniveau Instelling op aanvraagniveau Aanvraag verwerkt per servicelaag
Standaard auto, standaard Standaard
Standaard Prioriteit Prioriteitsverwerking
Prioriteit automatisch, prioriteit Prioriteitsverwerking
Prioriteit Standaard Standaard

Beperkingen

  • De service biedt momenteel geen ondersteuning voor regionale standaardimplementaties en eu-gegevenszonestandaardimplementaties.

  • Tijdens deze scenario's kan de service bepaalde prioriteitsaanvragen opnieuw routeren naar standaardverwerking*:

    • Als snelle toename van uw prioriteitsverwerkingstokens per minuut leidt tot het bereiken van rampsnelheidslimieten. Op dit moment wordt de limiet voor de hellingsnelheid gedefinieerd als het verhogen van het verkeer met meer dan 50% tokens per minuut in minder dan 15 minuten.
    • Tijdens perioden van piekaanvragen voor prioriteitsverwerking.
    • Lange contextverzoeken die worden verzonden naar bepaalde modellen die worden vermeld in de Latentiedoeltabel.

    Tip

    Als u regelmatig tegen opvoertijdratio-limieten aanloopt, kunt u overwegen PTU te kopen in plaats van of naast prioriteitsverwerking.

    * De service factureert aanvragen die worden verwerkt door het standaardserviceniveau tegen de standaardtarieven. Aanvragen die door de standard-servicelaag worden verwerkt, worden opgenomen service_tier = default in het antwoord, terwijl aanvragen die worden verwerkt door de prioriteitsverwerkingslaag, worden opgenomen service_tier = priority in het antwoord.

Probleemoplossing

Probleem Oorzaak Resolutie
Aanvragen die zijn gedowngraded naar de standaardlaag Een van deze situaties:
- Het dataverkeer is in minder dan 15 minuten met meer dan 50% tokens per minuut toegenomen, waardoor de limiet voor de snelheidsverhoging werd bereikt.
- Aanvragen die tijdens piekperioden worden verzonden naar voorrangsverwerking.
- Lange contextaanvragen die worden verzonden naar bepaalde modellen die worden vermeld in de doeltabel Latentie.
- Verhoog het verkeer geleidelijk als u limieten voor hellingfrequenties tegenkomt.
- Overweeg PTU te kopen voor een stabiele capaciteit.