Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
L'elaborazione prioritaria offre prestazioni a bassa latenza con la flessibilità del pagamento in base al consumo. In questo articolo viene abilitata l'elaborazione delle priorità in una distribuzione del modello, si verifica il livello di servizio che ha elaborato le richieste e si monitorano i costi associati.
Prerequisiti
- Sottoscrizione di Azure : Crearne una gratuitamente.
- Progetto Foundry di Microsoft con un modello distribuito del tipo
GlobalStandardoDataZoneStandard. - Versioni del modello
2025-12-01o successive.
Casi d'uso chiave
- Latenza coerente e bassa per le esperienze utente reattive.
- Semplicità con pagamento in base al consumo senza impegni a lungo termine.
- Traffico in ore lavorative o con picchi che trae vantaggio da prestazioni scalabili e convenienti. Facoltativamente, è possibile combinare l'elaborazione prioritaria con le Provisioned Throughput Units (PTU) per ottimizzare la capacità allo stato stazionario e i costi.
Obiettivo di latenza
| Modello | Valore di destinazione della latenza2 |
|---|---|
| gpt-5.4, 2026-03-051 | 99% > 50 token al secondo |
| gpt-5.2, 2025-12-11 | 99% > 50 token al secondo |
| gpt-5.1, 2025-11-13 | 99% > 50 token al secondo |
| gpt-4.1, 2025-04-141 | 99% > 80 token al secondo |
1 Le richieste di contesto lunghe (ovvero le richieste stimate a più di 128k token di prompt) verranno declassate all'elaborazione standard e verranno addebitate le tariffe al livello standard.
2 Calcolata come latenza di richiesta p50 su base 5 minuti.
Disponibilità dell'elaborazione prioritaria in base al tipo di distribuzione
L'elaborazione prioritaria può essere abilitata nelle distribuzioni standard globali o nelle distribuzioni standard della zona dati (US). Per informazioni sui prezzi, vedere la pagina dei prezzi di Azure OpenAI.
Disponibilità del modello standard globale
| Regione | gpt-5.5, 2026-04-24 | gpt-5.4-mini, 2026-03-17 | gpt-5.4, 2026-03-05 | gpt-5.2, 2025-12-11 | gpt-5.1, 2025-11-13 | gpt-4.1, 2025-04-14 |
|---|---|---|---|---|---|---|
| australiaeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| brasilesouth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| canadacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Canada orientale | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| centralus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| francecentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| germania ovest centrale | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| italynorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| japaneast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| koreacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| northcentralus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| norvegiaest | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| poloniacentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| southafricanorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| southcentralus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Sud-est asiatico | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| southindia | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| spaincentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Swedencentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| SvizzeraNorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Svizzera Ovest | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| uaenorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| uksouth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westeurope | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus3 | - | ✅ | ✅ | ✅ | ✅ | ✅ |
Abilitare l'elaborazione delle priorità a livello di distribuzione
È possibile abilitare l'elaborazione della priorità a livello di distribuzione e (facoltativamente) a livello di richiesta.
Nota
L'elaborazione prioritizzata può essere abilitata nelle distribuzioni Standard globale o Standard Zona dati (USA). L'elaborazione prioritaria usa la stessa quota dell'elaborazione standard.
Nel portale Microsoft Foundry, attivare l'interruttore Priority processing nella pagina dei dettagli della distribuzione quando si crea la distribuzione o aggiornare le impostazioni di un modello distribuito modificando i dettagli della distribuzione.
Nota
Se si preferisce usare il codice per abilitare l'elaborazione della priorità a livello di distribuzione, è possibile farlo tramite l'API REST per la distribuzione impostando l'attributo service_tier come indicato di seguito: "properties" : {"service_tier" : "priority"}. I valori consentiti per l'attributo service_tier sono default e priority.
default implica l'elaborazione standard, mentre priority abilita l'elaborazione prioritaria.
Dopo aver configurato una distribuzione del modello per l'uso dell'elaborazione prioritaria, si può iniziare a inviare richieste al modello.
Visualizzare le metriche di utilizzo
È possibile visualizzare la misura di utilizzo per la risorsa nella sezione Monitoraggio di Azure del portale di Azure.
Per visualizzare il volume di richieste elaborate dall'elaborazione standard rispetto all'elaborazione con priorità, suddivise per il livello di servizio (standard o priorità) presente nella richiesta originale:
- Accedere a https://portal.azure.com.
- Passare alla risorsa OpenAI Azure e selezionare l'opzione Metrics dal riquadro di spostamento a sinistra.
- Nella pagina delle metriche, aggiungere la metrica richieste di Azure OpenAI. È anche possibile selezionare altre metriche come Azure latenza OpenAI, Azure utilizzo OpenAI e altri.
- Selezionare Aggiungi filtro per selezionare la distribuzione standard per la quale sono state elaborate le richieste di elaborazione prioritarie.
- Selezionare Applica suddivisione per suddividere i valori per ServiceTierRequest e ServiceTierResponse.
Per altre informazioni sul monitoraggio delle distribuzioni, vedere Monitor Azure OpenAI.
Monitorare i costi
È possibile visualizzare una suddivisione dei costi per le richieste di priorità e standard nella pagina di analisi dei costi del portale di Azure filtrando il nome della distribuzione e i tag di fatturazione come indicato di seguito:
- Passare alla pagina di analisi dei costi nel portale Azure.
- (Facoltativo) Filtrare in base alla risorsa.
- Per filtrare in base al nome della distribuzione: aggiungi un filtro per il tag> di fatturazione, seleziona la distribuzione come valore, quindi scegli il nome della tua distribuzione.
Per informazioni sui prezzi dell'elaborazione prioritaria, vedere la panoramica dei prezzi di Servizio Azure OpenAI.
Abilitare l'elaborazione della priorità a livello di richiesta
L'abilitazione dell'elaborazione della priorità a livello di richiesta è facoltativa. Sia l'API di completamento della chat che l'API delle risposte hanno un attributo service_tier facoltativo che specifica il tipo di elaborazione da usare per la gestione di una richiesta. Nell'esempio seguente viene illustrato come impostare service_tier su priority in una richiesta di risposta.
curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
-d '{
"model": "gpt-4.1",
"input": "This is a test",
"service_tier": "priority"
}'
Usare l'attributo service_tier per eseguire l'override dell'impostazione a livello di distribuzione.
service_tier può accettare i valori auto, defaulte priority.
Se non si imposta l'attributo, per impostazione predefinita viene impostato su
auto.service_tier = autoindica che la richiesta usa il livello di servizio configurato nella distribuzione.service_tier = defaultindica che la richiesta usa i prezzi e le prestazioni standard per il modello selezionato.service_tier = priorityindica che la richiesta utilizza il livello di servizio a priorità elevata.
La tabella seguente riepiloga il livello di servizio che elabora le richieste in base alle impostazioni a livello di distribuzione e a livello di richiesta per service_tier.
| Impostazione a livello di distribuzione | Impostazione a livello di richiesta | Richiesta elaborata dal livello di servizio |
|---|---|---|
| Predefinito | auto, impostazione predefinita | Standard |
| Predefinito | Priorità | Elaborazione prioritaria |
| Priorità | auto, priorità | Elaborazione prioritaria |
| Priorità | Predefinito | Standard |
Limitazioni
Il servizio attualmente non supporta le distribuzioni standard regionali e le distribuzioni standard dell'area dati dell'UE.
Il servizio potrebbe reindirizzare nuovamente alcune richieste di priorità all'elaborazione standard* durante questi scenari:
- Se aumenta rapidamente i token di elaborazione delle priorità al minuto, è possibile raggiungere i limiti di frequenza delle rampe. Attualmente, il limite di velocità di rampa viene definito come aumento del traffico di oltre 50% token al minuto in meno di 15 minuti.
- Durante i periodi di picco delle richieste di elaborazione prioritaria.
- Richieste di contesto lunghe inviate a determinati modelli elencati nella tabella di destinazione della latenza.
Suggerimento
Se si riscontrano regolarmente limiti di velocità di ramp-up, prendere in considerazione l'acquisto di PTU anziché o oltre all'elaborazione prioritizzata.
* Il servizio fattura le richieste elaborate dal livello di servizio standard a tariffe standard. Le richieste elaborate dal livello di servizio standard includono
service_tier = defaultnella risposta, mentre le richieste elaborate dal livello di elaborazione prioritario includonoservice_tier = prioritynella risposta.
Risoluzione dei problemi
| Problema | Causa | Risoluzione |
|---|---|---|
| Richieste di cui è stato effettuato il downgrade al livello standard | Una di queste situazioni: - Il traffico è aumentato di più del 50% di token al minuto in meno di 15 minuti, raggiungendo il limite di velocità di aumento. - Richieste inviate durante periodi di picco delle richieste all'elaborazione prioritaria. - Richieste di contesto lunghe inviate a determinati modelli elencati nella tabella di destinazione della latenza. |
- Aumentare gradualmente il traffico, se sono stati rilevati limiti di frequenza di rampa. - Considerare l'acquisto di PTU per l'operatività in stato stazionario. |