Azure OpenAI in quote e limiti dei modelli Microsoft Foundry in Azure per enti pubblici

Questo articolo contiene un riferimento rapido e una descrizione dettagliata delle quote e dei limiti per Azure OpenAI in Azure per enti pubblici.

Ambito della quota

Le quote e i limiti non vengono applicati a livello di tenant. Al contrario, il livello massimo di restrizioni di quota è vincolato al livello di sottoscrizione di Azure.

Allocazione della quota a livello di area

I limiti sui token al minuto (TPM) e le richieste al minuto (RPM) sono definiti per area, per sottoscrizione e per modello o tipo di distribuzione.

Ad esempio, se il modello gpt-4.1 DataZone Standard è elencato con una quota di 5 milioni di TPM e 5.000 RPM, each region in cui è disponibile tale model o tipo di distribuzione dispone di un proprio pool di quote dedicato per each le sottoscrizioni Azure. All'interno di una singola sottoscrizione Azure, è possibile usare una quantità maggiore di quote TPM e RPM totali per un determinato modello e tipo di distribuzione, purché si disponga di risorse e distribuzioni di modelli distribuite in più aree.

Livelli di quota

In Azure per enti pubblici non sono supportati i livelli di quota o le modifiche automatiche alla quota. Vengono invece forniti due livelli, tra cui un livello predefinito e un livello Enterprise per i clienti con contratto Enterprise.

È possibile richiedere più quote?

Sì, usando il Modulo di richiesta quota Azure Gov è sempre possibile richiedere più quota. Se la richiesta viene approvata, il livello corrente rimarrà invariato, ma con più quote assegnate.

Riferimento alle quote di Azure per enti pubblici

DataZone Standard
Standard

Token Standard di DataZone al minuto (TPM)

Nome del modello	TPM predefinito	TPM aziendale
gpt-5.1	300,000	1,000,000
gpt4.1	300,000	2,000,000
gpt-4.1-mini	300,000	2,000,000
gpt-4o	300,000	10,000,000
o3-mini	200,000	200,000

Standard Token Per Minuto (TPM)

Nome del modello	TPM predefinito	TPM aziendale
gpt4.1	300,000	2,000,000
gpt-4.1-mini	300,000	2,000,000
gpt-4o	80,000	80,000
text-embedding-3-large	350,000	350,000
text-embedding-3-small	350,000	350,000
text-embedding-ada-002	350,000	350,000

Procedure consigliate generali per rimanere entro i limiti di velocità

Per ridurre al minimo i problemi relativi ai limiti di frequenza, è consigliabile usare le tecniche seguenti:

Implementare la logica di ripetizione dei tentativi nell'applicazione.
Evitare modifiche brusche nel carico di lavoro. Aumentare gradualmente il carico di lavoro.
Testare modelli di aumento del carico diversi.
Aumentare la quota assegnata alla distribuzione. Spostare la quota da un'altra distribuzione, se necessario.

Limiti di capacità della quota a livello di area

È possibile visualizzare la disponibilità delle quote per regione per la sottoscrizione nel portale Foundry.

Per visualizzare la capacità della quota per area per un modello o una versione specifica, è possibile eseguire una query sull'API di capacità per la sottoscrizione. Fornire un oggetto subscriptionId, model_name e model_version e l'API restituisce la capacità disponibile per tale modello in tutte le aree e i tipi di distribuzione per la sottoscrizione.

Annotazioni

Attualmente, sia il portale Foundry che l'API capacity restituiscono informazioni sulla quota/capacità per i modelli ritirati e non più disponibili.

Informazioni su come gestisci quota per le distribuzioni OpenAI Azure.
Ulteriori informazioni sui modelli sottostanti che alimentano Azure OpenAI.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-30