Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Microsoft Foundry Control Plane applica limiti di token al minuto (TPM) e quote totali di token per le distribuzioni di modelli nell'ambito del progetto. Questo controllo impedisce il consumo incontrollato di token e allinea l'utilizzo alle linee guida dell'organizzazione. Foundry Control Plane si integra con i gateway di AI per garantire l'applicazione di politiche avanzate per i modelli.
Questo articolo illustra come configurare la limitazione della frequenza dei token e le quote dei token.
Prerequisiti
-
Un account Azure con una sottoscrizione attiva. Se non ne hai uno, crea un account gratuito Azure, che include una sottoscrizione di valutazione gratuita.
Una risorsa di Foundry con un gateway configurato per l'intelligenza artificiale. Altre informazioni su come abilitare un gateway di intelligenza artificiale per una risorsa Foundry.
Progetto Foundry con un modello distribuito aggiunto al gateway di intelligenza artificiale configurato. Per abilitare un gateway di intelligenza artificiale per un progetto, è necessario il ruolo Api Management Service Contributor (o Owner) nella risorsa Gestione API di Azure.
Informazioni sui gateway di intelligenza artificiale
Quando si usa un gateway di intelligenza artificiale con il Foundry Control Plane per garantire l'applicazione avanzata delle politiche sui modelli, il gateway di intelligenza artificiale funge da intermediario tra i client e le distribuzioni dei modelli. Fa sì che tutte le richieste fluiscano attraverso l'istanza di Gestione API a cui è associata.
I limiti si applicano a livello di progetto. Ovvero, ogni progetto può avere le proprie impostazioni di TPM e quota.
Usare un gateway di intelligenza artificiale per:
- Contenimento dei token tra i team (impedire a un progetto di monopolizzare la capacità).
- Controllo dei costi riducendo l'utilizzo aggregato.
- Limiti di conformità per carichi di lavoro regolamentati (applicare limiti di utilizzo prevedibili).
Configurare i limiti dei token
È possibile configurare i limiti dei token per distribuzioni di modelli specifiche all'interno dei progetti:
-
Accedere a Microsoft Foundry. Assicurarsi che l'interruttore New Foundry sia attivato. Questi passaggi fanno riferimento a Foundry (nuovo).These steps refer to Foundry (new).
Selezionare Operare>Admin.
Nell'elenco Gateway di intelligenza artificiale selezionare il gateway che si vuole usare.
Nel riquadro dei dettagli del gateway visualizzato selezionare Gestione token.
Selezionare + Imposta limite per creare un nuovo limite per una distribuzione del modello.
Selezionare il progetto e la distribuzione da limitare e immettere un valore per Limite (token al minuto).
Selezionare Crea per salvare le modifiche.
Informazioni sulle finestre delle quote
I limiti dei token hanno due dimensioni di imposizione complementari:
Limite di velocità TPM: limita l'utilizzo dei token a un massimo configurato al minuto. Quando le richieste superano il limite TPM, il chiamante riceve un
429 Too Many Requestscodice di stato della risposta.Quota totale dei token: limita l'utilizzo dei token a un periodo massimo configurato per quota (ad esempio, ogni ora, giornaliera, settimanale, mensile o annuale). Quando le richieste superano la quota, il chiamante riceve un
403 Forbiddencodice di stato della risposta.
Se si inviano contemporaneamente molte richieste, l'utilizzo dei token può superare temporaneamente i limiti configurati fino a quando non vengono elaborate le risposte.
La regolazione di una quota o di un valore TPM influisce sulle decisioni di imposizione successive.
Per altre informazioni, vedere AI gateway in Gestione API di Azure e Limit large language model API token usage.
Verificare l'applicazione
Inviare richieste di test a un endpoint di distribuzione del modello usando l'URL e la chiave del gateway del progetto.
Aumentare gradualmente la frequenza delle richieste fino a quando il limite TPM si attiva.
Tenere traccia dei token cumulativi fino all'attivazione della quota.
Verificare che:
-
429 Too Many Requests(risposta con frequenza limitata) viene restituita quando le richieste superano il limite TPM. -
403 Forbidden(errore di quota) viene restituito quando le richieste esauriscono la quota.
-
Modificare i limiti
Tornare alle impostazioni del gateway di intelligenza artificiale del progetto.
Modificare i valori di TPM o quota.
Salvare le modifiche. I nuovi limiti si applicano immediatamente alle richieste successive.
Risoluzione dei problemi
| Problema | Possibile causa | Azione |
|---|---|---|
| L'istanza di Gestione API non viene visualizzata | Ritardo del provisioning | Eseguire l'aggiornamento dopo alcuni minuti. |
| I limiti non vengono applicati | Configurazione errata o progetto non collegato | Riaprire le impostazioni e verificare che l'interruttore di imposizione sia attivato. Verificare che il gateway di intelligenza artificiale sia abilitato per il progetto e che siano configurati limiti corretti. |
| La latenza è elevata dopo l'abilitazione | Mancata corrispondenza dell'avvio a freddo o della regione nella Gestione API | Controllare l'area di Gestione API e l'area delle risorse. Chiamare direttamente il modello e confrontare il risultato con la chiamata proxied tramite il gateway di intelligenza artificiale per identificare se i problemi di prestazioni sono correlati al gateway. |
Se la console di amministrazione è lenta, riprovare dopo un breve intervallo.