Applicare i limiti dei token per i modelli

Microsoft Foundry Control Plane applica limiti di token al minuto (TPM) e quote totali di token per le distribuzioni di modelli nell'ambito del progetto. Questo controllo impedisce il consumo incontrollato di token e allinea l'utilizzo alle linee guida dell'organizzazione. Foundry Control Plane si integra con i gateway di AI per garantire l'applicazione di politiche avanzate per i modelli.

Questo articolo illustra come configurare la limitazione della frequenza dei token e le quote dei token.

Prerequisiti

Un account Azure con una sottoscrizione attiva. Se non ne hai uno, crea un account gratuito Azure, che include una sottoscrizione di valutazione gratuita.
Una risorsa di Foundry con un gateway configurato per l'intelligenza artificiale. Altre informazioni su come abilitare un gateway di intelligenza artificiale per una risorsa Foundry.
Progetto Foundry con un modello distribuito aggiunto al gateway di intelligenza artificiale configurato. Per abilitare un gateway di intelligenza artificiale per un progetto, è necessario il ruolo Api Management Service Contributor (o Owner) nella risorsa Gestione API di Azure.

Informazioni sui gateway di intelligenza artificiale

Quando si usa un gateway di intelligenza artificiale con il Foundry Control Plane per garantire l'applicazione avanzata delle politiche sui modelli, il gateway di intelligenza artificiale funge da intermediario tra i client e le distribuzioni dei modelli. Fa sì che tutte le richieste fluiscano attraverso l'istanza di Gestione API a cui è associata.

I limiti si applicano a livello di progetto. Ovvero, ogni progetto può avere le proprie impostazioni di TPM e quota.

Usare un gateway di intelligenza artificiale per:

Contenimento dei token tra i team (impedire a un progetto di monopolizzare la capacità).
Controllo dei costi riducendo l'utilizzo aggregato.
Limiti di conformità per carichi di lavoro regolamentati (applicare limiti di utilizzo prevedibili).

Configurare i limiti dei token

È possibile configurare i limiti dei token per distribuzioni di modelli specifiche all'interno dei progetti:

Accedere a Microsoft Foundry. Assicurarsi che l'interruttore New Foundry sia attivato. Questi passaggi fanno riferimento a Foundry (nuovo).These steps refer to Foundry (new).
Selezionare Operare>Admin.
Nell'elenco Gateway di intelligenza artificiale selezionare il gateway che si vuole usare.
Nel riquadro dei dettagli del gateway visualizzato selezionare Gestione token.
Selezionare + Imposta limite per creare un nuovo limite per una distribuzione del modello.
Selezionare il progetto e la distribuzione da limitare e immettere un valore per Limite (token al minuto).
Selezionare Crea per salvare le modifiche.

Informazioni sulle finestre delle quote

I limiti dei token hanno due dimensioni di imposizione complementari:

Limite di velocità TPM: limita l'utilizzo dei token a un massimo configurato al minuto. Quando le richieste superano il limite TPM, il chiamante riceve un 429 Too Many Requests codice di stato della risposta.
Quota totale dei token: limita l'utilizzo dei token a un periodo massimo configurato per quota (ad esempio, ogni ora, giornaliera, settimanale, mensile o annuale). Quando le richieste superano la quota, il chiamante riceve un 403 Forbidden codice di stato della risposta.

Se si inviano contemporaneamente molte richieste, l'utilizzo dei token può superare temporaneamente i limiti configurati fino a quando non vengono elaborate le risposte.

La regolazione di una quota o di un valore TPM influisce sulle decisioni di imposizione successive.

Per altre informazioni, vedere AI gateway in Gestione API di Azure e Limit large language model API token usage.

Verificare l'applicazione

Inviare richieste di test a un endpoint di distribuzione del modello usando l'URL e la chiave del gateway del progetto.
Aumentare gradualmente la frequenza delle richieste fino a quando il limite TPM si attiva.
Tenere traccia dei token cumulativi fino all'attivazione della quota.
Verificare che:
- 429 Too Many Requests (risposta con frequenza limitata) viene restituita quando le richieste superano il limite TPM.
- 403 Forbidden (errore di quota) viene restituito quando le richieste esauriscono la quota.

Modificare i limiti

Tornare alle impostazioni del gateway di intelligenza artificiale del progetto.
Modificare i valori di TPM o quota.
Salvare le modifiche. I nuovi limiti si applicano immediatamente alle richieste successive.

Risoluzione dei problemi

Problema	Possibile causa	Azione
L'istanza di Gestione API non viene visualizzata	Ritardo del provisioning	Eseguire l'aggiornamento dopo alcuni minuti.
I limiti non vengono applicati	Configurazione errata o progetto non collegato	Riaprire le impostazioni e verificare che l'interruttore di imposizione sia attivato. Verificare che il gateway di intelligenza artificiale sia abilitato per il progetto e che siano configurati limiti corretti.
La latenza è elevata dopo l'abilitazione	Mancata corrispondenza dell'avvio a freddo o della regione nella Gestione API	Controllare l'area di Gestione API e l'area delle risorse. Chiamare direttamente il modello e confrontare il risultato con la chiamata proxied tramite il gateway di intelligenza artificiale per identificare se i problemi di prestazioni sono correlati al gateway.

Se la console di amministrazione è lenta, riprovare dopo un breve intervallo.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-30