Applicare i limiti dei token per i modelli

Microsoft Foundry Control Plane applica limiti di token al minuto (TPM) e quote totali di token per le distribuzioni di modelli nell'ambito del progetto. Questo controllo impedisce il consumo incontrollato di token e allinea l'utilizzo alle linee guida dell'organizzazione. Foundry Control Plane si integra con i gateway di AI per garantire l'applicazione di politiche avanzate per i modelli.

Questo articolo illustra come configurare la limitazione della frequenza dei token e le quote dei token.

Prerequisiti

Informazioni sui gateway di intelligenza artificiale

Quando si usa un gateway di intelligenza artificiale con il Foundry Control Plane per garantire l'applicazione avanzata delle politiche sui modelli, il gateway di intelligenza artificiale funge da intermediario tra i client e le distribuzioni dei modelli. Fa sì che tutte le richieste fluiscano attraverso l'istanza di Gestione API a cui è associata.

I limiti si applicano a livello di progetto. Ovvero, ogni progetto può avere le proprie impostazioni di TPM e quota.

Diagramma del flusso logico delle richieste client che passano attraverso Gestione API di Azure come gateway di intelligenza artificiale prima di raggiungere le distribuzioni di modelli all'interno di un progetto.

Usare un gateway di intelligenza artificiale per:

  • Contenimento dei token tra i team (impedire a un progetto di monopolizzare la capacità).
  • Controllo dei costi riducendo l'utilizzo aggregato.
  • Limiti di conformità per carichi di lavoro regolamentati (applicare limiti di utilizzo prevedibili).

Configurare i limiti dei token

È possibile configurare i limiti dei token per distribuzioni di modelli specifiche all'interno dei progetti:

  1. Accedere a Microsoft Foundry. Assicurarsi che l'interruttore New Foundry sia attivato. Questi passaggi fanno riferimento a Foundry (nuovo).These steps refer to Foundry (new).

  2. Selezionare Operare>Admin.

  3. Nell'elenco Gateway di intelligenza artificiale selezionare il gateway che si vuole usare.

  4. Nel riquadro dei dettagli del gateway visualizzato selezionare Gestione token.

  5. Selezionare + Imposta limite per creare un nuovo limite per una distribuzione del modello.

  6. Selezionare il progetto e la distribuzione da limitare e immettere un valore per Limite (token al minuto).

  7. Selezionare Crea per salvare le modifiche.

Screenshot del riquadro delle impostazioni del progetto che mostra le caselle di input per i token al minuto e i limiti totali della quota del token.

Informazioni sulle finestre delle quote

I limiti dei token hanno due dimensioni di imposizione complementari:

  • Limite di velocità TPM: limita l'utilizzo dei token a un massimo configurato al minuto. Quando le richieste superano il limite TPM, il chiamante riceve un 429 Too Many Requests codice di stato della risposta.

  • Quota totale dei token: limita l'utilizzo dei token a un periodo massimo configurato per quota (ad esempio, ogni ora, giornaliera, settimanale, mensile o annuale). Quando le richieste superano la quota, il chiamante riceve un 403 Forbidden codice di stato della risposta.

Se si inviano contemporaneamente molte richieste, l'utilizzo dei token può superare temporaneamente i limiti configurati fino a quando non vengono elaborate le risposte.

La regolazione di una quota o di un valore TPM influisce sulle decisioni di imposizione successive.

Per altre informazioni, vedere AI gateway in Gestione API di Azure e Limit large language model API token usage.

Verificare l'applicazione

  1. Inviare richieste di test a un endpoint di distribuzione del modello usando l'URL e la chiave del gateway del progetto.

  2. Aumentare gradualmente la frequenza delle richieste fino a quando il limite TPM si attiva.

  3. Tenere traccia dei token cumulativi fino all'attivazione della quota.

  4. Verificare che:

    • 429 Too Many Requests (risposta con frequenza limitata) viene restituita quando le richieste superano il limite TPM.
    • 403 Forbidden (errore di quota) viene restituito quando le richieste esauriscono la quota.

Modificare i limiti

  1. Tornare alle impostazioni del gateway di intelligenza artificiale del progetto.

  2. Modificare i valori di TPM o quota.

  3. Salvare le modifiche. I nuovi limiti si applicano immediatamente alle richieste successive.

Risoluzione dei problemi

Problema Possibile causa Azione
L'istanza di Gestione API non viene visualizzata Ritardo del provisioning Eseguire l'aggiornamento dopo alcuni minuti.
I limiti non vengono applicati Configurazione errata o progetto non collegato Riaprire le impostazioni e verificare che l'interruttore di imposizione sia attivato. Verificare che il gateway di intelligenza artificiale sia abilitato per il progetto e che siano configurati limiti corretti.
La latenza è elevata dopo l'abilitazione Mancata corrispondenza dell'avvio a freddo o della regione nella Gestione API Controllare l'area di Gestione API e l'area delle risorse. Chiamare direttamente il modello e confrontare il risultato con la chiamata proxied tramite il gateway di intelligenza artificiale per identificare se i problemi di prestazioni sono correlati al gateway.

Se la console di amministrazione è lenta, riprovare dopo un breve intervallo.