Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questo articolo contiene un riferimento rapido e una descrizione dettagliata delle quote e dei limiti per Azure OpenAI in Azure per enti pubblici.
Ambito della quota
Le quote e i limiti non vengono applicati a livello di tenant. Al contrario, il livello massimo di restrizioni di quota è vincolato al livello di sottoscrizione di Azure.
Allocazione della quota a livello di area
I limiti sui token al minuto (TPM) e le richieste al minuto (RPM) sono definiti per area, per sottoscrizione e per modello o tipo di distribuzione.
Ad esempio, se il modello gpt-4.1 DataZone Standard è elencato con una quota di 5 milioni di TPM e 5.000 RPM, each region in cui è disponibile tale model o tipo di distribuzione dispone di un proprio pool di quote dedicato per each le sottoscrizioni Azure. All'interno di una singola sottoscrizione Azure, è possibile usare una quantità maggiore di quote TPM e RPM totali per un determinato modello e tipo di distribuzione, purché si disponga di risorse e distribuzioni di modelli distribuite in più aree.
Livelli di quota
In Azure per enti pubblici non sono supportati i livelli di quota o le modifiche automatiche alla quota. Vengono invece forniti due livelli, tra cui un livello predefinito e un livello Enterprise per i clienti con contratto Enterprise.
È possibile richiedere più quote?
Sì, usando il Modulo di richiesta quota Azure Gov è sempre possibile richiedere più quota. Se la richiesta viene approvata, il livello corrente rimarrà invariato, ma con più quote assegnate.
Riferimento alle quote di Azure per enti pubblici
Token Standard di DataZone al minuto (TPM)
| Nome del modello | TPM predefinito | TPM aziendale |
|---|---|---|
| gpt-5.1 | 300,000 | 1,000,000 |
| gpt4.1 | 300,000 | 2,000,000 |
| gpt-4.1-mini | 300,000 | 2,000,000 |
| gpt-4o | 300,000 | 10,000,000 |
| o3-mini | 200,000 | 200,000 |
Procedure consigliate generali per rimanere entro i limiti di velocità
Per ridurre al minimo i problemi relativi ai limiti di frequenza, è consigliabile usare le tecniche seguenti:
- Implementare la logica di ripetizione dei tentativi nell'applicazione.
- Evitare modifiche brusche nel carico di lavoro. Aumentare gradualmente il carico di lavoro.
- Testare modelli di aumento del carico diversi.
- Aumentare la quota assegnata alla distribuzione. Spostare la quota da un'altra distribuzione, se necessario.
Limiti di capacità della quota a livello di area
È possibile visualizzare la disponibilità delle quote per regione per la sottoscrizione nel portale Foundry.
Per visualizzare la capacità della quota per area per un modello o una versione specifica, è possibile eseguire una query sull'API di capacità per la sottoscrizione. Fornire un oggetto subscriptionId, model_name e model_version e l'API restituisce la capacità disponibile per tale modello in tutte le aree e i tipi di distribuzione per la sottoscrizione.
Annotazioni
Attualmente, sia il portale Foundry che l'API capacity restituiscono informazioni sulla quota/capacità per i modelli ritirati e non più disponibili.
Contenuti correlati
- Informazioni su come gestisci quota per le distribuzioni OpenAI Azure.
- Ulteriori informazioni sui modelli sottostanti che alimentano Azure OpenAI.