Azure OpenAI Quota dinamica (Anteprima) (Classico)

Si applica solo a:Portale di Foundry (versione classica). Questo articolo non è disponibile per il nuovo portale foundry. Altre informazioni sul nuovo portale.

Nota

I collegamenti in questo articolo potrebbero aprire contenuto nella nuova documentazione di Microsoft Foundry anziché nella documentazione di Foundry (versione classica) visualizzata.

La quota dinamica è una funzionalità Azure OpenAI che consente a una distribuzione standard di sfruttare in modo opportunistico una maggiore quota quando è disponibile una capacità aggiuntiva. Quando la quota dinamica è disattivata, il deployment sarà in grado di elaborare un throughput massimo stabilito dall'impostazione Tokens Per Minute (TPM). Quando si supera il TPM predefinito, le richieste restituiranno risposte HTTP 429. Quando la quota dinamica è abilitata, la distribuzione ha la possibilità di accedere a una velocità effettiva più elevata prima di restituire 429 risposte, consentendo di eseguire più chiamate in precedenza. Le richieste aggiuntive vengono comunque fatturate a tariffe regolari.

La quota dinamica può aumentare temporaneamente solo la quota disponibile: non ridurrà mai al di sotto del valore configurato.

Quando usare la quota dinamica

La quota dinamica è utile nella maggior parte degli scenari, in particolare quando l'applicazione può usare capacità aggiuntiva in modo opportunistico o l'applicazione stessa sta guidando la velocità con cui viene chiamata l'API OpenAI Azure.

In genere, la situazione in cui è preferibile evitare la quota dinamica è quando l'applicazione offre un'esperienza negativa se la quota è volatile o aumentata.

Per la quota dinamica, considerare scenari come:

  • Elaborazione in blocco
  • Creazione di riepiloghi o incorporamenti per la generazione aumentata di recupero (RAG),
  • Analisi offline dei log per la generazione di metriche e valutazioni,
  • Ricerca con priorità bassa,
  • App con una piccola quantità di quota allocata.

Quando entra in vigore la quota dinamica?

Il back-end OpenAI Azure decide se, quando e quanto quota dinamica aggiuntiva viene aggiunta o rimossa da distribuzioni diverse. Non è previsto o annunciato in anticipo e non è prevedibile. Per sfruttare la quota dinamica, il codice dell'applicazione deve essere in grado di inviare più richieste perché le risposte HTTP 429 diventano poco frequenti. Azure OpenAI consente all'applicazione di sapere quando si raggiunge il limite di quota rispondendo con un HTTP 429 e senza consentire altre chiamate API.

In che modo cambiano i costi delle quote dinamiche?

  • Le chiamate eseguite al di sopra della quota di base hanno gli stessi costi delle chiamate regolari.

  • Non è previsto alcun costo aggiuntivo per attivare la quota dinamica in una distribuzione, anche se la maggiore velocità effettiva potrebbe comportare un aumento dei costi a seconda della quantità di traffico ricevuta dalla distribuzione.

Nota

Con la quota dinamica, non viene applicata nessuna quota massima o limite di throughput. Azure OpenAI elaborerà quante più richieste possibile oltre la vostra quota di base. Se è necessario controllare il tasso di spesa anche quando la quota è meno vincolata, il codice dell'applicazione deve contenere le richieste di conseguenza.

Come usare la quota dinamica

Per usare la quota dinamica, è necessario:

  • Attivare la proprietà quota dinamica nella distribuzione Azure OpenAI.
  • Assicurarsi che l'applicazione possa sfruttare la quota dinamica.

Abilitare la quota dinamica

Per attivare la quota dinamica per la distribuzione, è possibile passare alle proprietà avanzate nella configurazione delle risorse e attivarla.

In alternativa, è possibile abilitarla a livello di codice con az rest di interfaccia della riga di comando di Azure:

Sostituire {subscriptionId}, {resourceGroupName}, {accountName} e {deploymentName} con i valori pertinenti per la risorsa. In questo caso, accountName è uguale al nome della risorsa Azure OpenAI.

az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'

Come posso sapere quanta larghezza di banda con quota dinamica sta aggiungendo alla mia app?

Per monitorare il funzionamento, è possibile tenere traccia della velocità effettiva dell'applicazione in Monitoraggio di Azure. Durante l'anteprima della quota dinamica, non esiste alcuna metrica o log specifico per indicare se la quota è stata aumentata o diminuita dinamicamente. È meno probabile che la quota dinamica venga attivata per la tua distribuzione se viene eseguita in regioni fortemente utilizzate e durante le ore di punta di utilizzo per quelle regioni.

Passaggi successivi