Router modello per Microsoft Foundry

Il "Model Router" è un modello linguistico addestrato che instrada in modo intelligente le richieste in tempo reale al modello linguistico più appropriato (LLM). Si distribuisce un router modello come qualsiasi altro modello Foundry. Di conseguenza, offre prestazioni elevate, risparmiando sui costi, riducendo le latenze e aumentando la velocità di risposta, mantenendo al tempo stesso una qualità paragonabile, tutto in pacchetto come una singola distribuzione del modello.

Nota

Non è necessario distribuire separatamente i file LLM supportati per l'uso con il router del modello, ad eccezione dei modelli Claude. Per utilizzare il router di modelli con i modelli Claude, distribuiscili prima dal catalogo dei modelli. Le distribuzioni vengono richiamate dal modello di router se selezionate per il routing.

Per provare rapidamente il router del modello, seguire Come usare il router del modello. Dopo aver distribuito il router del modello, inviare una richiesta alla distribuzione. Il router del modello seleziona un modello sottostante per ogni richiesta in base alle impostazioni di routing. Per un approfondimento sulla pipeline di routing, l'addestramento e la logica delle decisioni, vedere Funzionamento del router del modello.

Come funziona un modello di router

Come modello linguistico addestrato, il router del modello analizza i tuoi prompt in tempo reale in base alla complessità, al ragionamento, al tipo di attività e ad altri attributi. Non archivia le richieste. Instrada solo i modelli idonei in base ai tipi di accesso e distribuzione, rispettando i limiti della zona dati.

Importante

La finestra di contesto effettiva è limitata dal modello sottostante più piccolo. Per i contesti più grandi, usare il subset del modello per selezionare i modelli che supportano i requisiti.

In modalità bilanciata (impostazione predefinita), considera tutti i modelli sottostanti all'interno di un intervallo di qualità ridotto (ad esempio, 1% a 2% rispetto al modello di massima qualità per tale richiesta) e sceglie il modello più conveniente.
In modalità Costo, considera una banda di qualità maggiore (ad esempio, da 5% a 6% rispetto al modello di alta qualità per tale richiesta) e sceglie il modello più conveniente.
In modalità Qualità seleziona il modello di qualità più alta per la richiesta, ignorando il costo.

Perché usare il router modello?

Il router modello ottimizza i costi e le latenze mantenendo al contempo una qualità paragonabile. I modelli più piccoli e più economici vengono usati quando sono sufficienti per l'attività, ma i modelli più grandi e più costosi sono disponibili per attività più complesse. Inoltre, i modelli di ragionamento sono disponibili per le attività che richiedono un ragionamento complesso e i modelli non di ragionamento vengono usati in caso contrario. Il router modello offre una singola esperienza di distribuzione e chat che combina le migliori funzionalità di tutti i modelli di chat sottostanti.

La versione più recente include 2025-11-18 diverse funzionalità:

Supporta le distribuzioni Standard Globali e Standard della Zona Dati.
Aggiunge il supporto per i nuovi modelli: grok-4, grok-4-fast-reasoningDeepSeek-V3.1, DeepSeek-V3.2, , gpt-oss-120b, Llama-4-Maverick-17B-128E-Instruct-FP8gpt-4o, gpt-4o-minigpt-5.2gpt-5.2-chatclaude-haiku-4-5claude-sonnet-4-5, , claude-opus-4-1, e .claude-opus-4-6
Distribuzione rapida o Distribuzione personalizzata con modalità di routing e opzioni di subset del modello .
Modalità di routing: ottimizza la logica di routing per le proprie esigenze. Opzioni supportate: Quality, Cost, Balanced (impostazione predefinita).
Subset del modello: selezionare i modelli preferiti per creare il subset del modello per il routing.
Supporto per gli scenari agenti, inclusi gli strumenti, in modo da poterlo usare nel servizio agente Foundry.

Versionamento

Ogni versione del router modello è associata a un set specifico di modelli sottostanti e alle relative versioni. Questo set è fisso. Solo le versioni più recenti del modello di router possono esporre nuovi modelli di base.

Se si seleziona Aggiornamento automatico nel passaggio di distribuzione (vedere Aggiornamenti del modello), il modello di router del modello viene aggiornato automaticamente quando diventano disponibili nuove versioni. In questo caso, anche il set di modelli sottostanti cambia, che potrebbe influire sulle prestazioni complessive del modello e dei costi.

Modelli supportati

Nota

Non è necessario distribuire separatamente i moduli di gestione dei modelli supportati per l'uso con il router del modello, ad eccezione dei modelli Claude. Per usare il modello di router con i modelli Claude, distribuiscili prima dal catalogo dei modelli. Le distribuzioni verranno richiamate dal router modello se sono selezionate per il routing.

Versione del modello di router	Formato	Modello	Versione
`2025-11-18`	OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI DeepSeek DeepSeek OpenAI Meta xAI xAI Anthropic Anthropic Anthropic Anthropic	`gpt-4.0` `gpt-4.0-mini` `gpt-4.1` `gpt-4.1-mini` `gpt-4.1-nano` `o4-mini` `gpt-5-nano` `gpt-5-mini` `gpt-5` `gpt-5-chat` `gpt-5.2` `gpt-5.2-chat` `Deepseek-V3.1` ² `Deepseek-V3.2` ² `gpt-oss-120b` ² `Llama-4-Maverick-17B-128E-Instruct-FP8` ² `grok-4` ² `grok-4-fast-reasoning` ² `claude-haiku-4-5` ³ `claude-sonnet-4-5` ³ `claude-opus-4-1` ³ `claude-opus-4-6` ³	`2024-11-20` `2024-07-18` `2025-04-14` `2025-04-14` `2025-04-14` `2025-04-16` `2025-08-07` `2025-08-07` `2025-08-07` `2025-08-07` `2025-12-11` `2025-12-11` `1` `1` `1` `1` `1` `1` `20251001` `20250929` `20250805` `1`
`2025-08-07`	OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI	`gpt-4.1` `gpt-4.1-mini` `gpt-4.1-nano` `o4-mini` `gpt-5` ¹ `gpt-5-mini` `gpt-5-nano` `gpt-5-chat`	`2025-04-14` `2025-04-14` `2025-04-14` `2025-04-16` `2025-08-07` `2025-08-07` `2025-08-07` `2025-08-07`
`2025-05-19`	OpenAI OpenAI OpenAI OpenAI	`gpt-4.1` `gpt-4.1-mini` `gpt-4.1-nano` `o4-mini`	`2025-04-14` `2025-04-14` `2025-04-14` `2025-04-16`

¹Richiede la registrazione.
²Il supporto del router per il modello è disponibile in anteprima.
³Il supporto per il router di modello è disponibile in anteprima. Richiede la distribuzione del modello per l'uso con il router del modello.

Modalità di routing

Con la versione più recente, se si sceglie una distribuzione personalizzata, è possibile selezionare la modalità di routing per ottimizzare la qualità o i costi mantenendo al tempo stesso un livello di prestazioni di base. L'impostazione di una modalità di routing è facoltativa e, se non ne viene impostata una, per impostazione predefinita la distribuzione viene impostata sulla modalità bilanciata.

Modalità di routing disponibili:

Modalità	Descrizione
Bilanciato (impostazione predefinita)	Considera i costi e la qualità in modo dinamico. Perfetto per scenari per utilizzo generico
Qualità	Assegna priorità per la massima accuratezza. Ideale per motivi complessi o output critici
Costo	Assegna priorità per un maggiore risparmio sui costi. Ideale per carichi di lavoro con volumi elevati e sensibili al budget

Sottoinsieme del modello

La versione più recente del modello di router supporta sottoinsiemi di modelli: è possibile specificare quali modelli sottostanti includere nelle decisioni di instradamento. In questo modo è possibile controllare maggiormente i costi, la conformità e le caratteristiche delle prestazioni.

Quando i nuovi modelli di base diventano disponibili, non vengono inclusi nella selezione, a meno che non vengano aggiunti esplicitamente all'elenco di inclusione della distribuzione.

Failover automatico

Il router modello ora include il failover automatico integrato. Quando si usa la distribuzione predefinita per indirizzare a tutti i modelli supportati, il router del modello reindirizza in modo trasparente la richiesta al modello più appropriato successivo, quindi i problemi temporanei con qualsiasi singolo modello non interrompono l'applicazione. Il failover è abilitato per impostazione predefinita. Non è necessaria alcuna configurazione aggiuntiva.

Per le configurazioni di distribuzione personalizzate:

La modalità di routing selezionata (Bilanciato, Costo o Qualità) continua a essere applicata durante il failover.
Il subset del modello configurato funziona anche come set di fallback per impedire che le richieste vengano elaborate da modelli non approvati. Assicurarsi quindi di selezionare subset di modelli con almeno due modelli per trarre vantaggio dalla funzionalità di fallback.

Memorizzazione di prompt nella cache

Il router modello supporta la memorizzazione nella cache dei prompt perché le richieste vengono elaborate dai modelli sottostanti che lo supportano. Quando il router del modello delega una richiesta a un modello che supporta la memorizzazione nella cache dei prompt, i token memorizzati nella cache vengono usati automaticamente. Non è necessaria alcuna configurazione aggiuntiva.

Il comportamento della cache dipende dal modello sottostante selezionato dal router per una determinata richiesta. Poiché le decisioni di routing possono variare, i vantaggi della memorizzazione nella cache si applicano solo quando lo stesso modello gestisce le richieste consecutive con prefissi di prompt sovrapposti.

Per informazioni dettagliate sul funzionamento della memorizzazione nella cache dei prompt e sui modelli che lo supportano, vedere Memorizzazione nella cache dei prompt.

Limitazioni

Limitazioni delle risorse

Regione	Tipi di distribuzione supportati
Stati Uniti orientali 2	Standard Globale, Standard di Zona Dati
Svezia centrale	Standard Globale, Standard Zona dei Dati

Consulta anche Azure OpenAI nei modelli Microsoft Foundry per la disponibilità della regione corrente.

Limiti di frequenza

Modello	Tipo di distribuzione	RPM predefinito	TPM predefinito	Enterprise e MCA-E RPM	TPM aziendale e MCA-E
`model-router` `(2025-11-18)`	DataZoneStandard	150	150,000	300	300,000
`model-router` `(2025-11-18)`	GlobalStandard	250	250,000	400	400,000

Vedere anche Quote e limiti per informazioni sul limite di velocità.

Per superare i limiti relativi alla finestra di contesto e ai parametri, usare la funzionalità Subset model per selezionare i modelli per il routing che supportano le proprietà desiderate.

Nota

Il limite della finestra di contesto specificato per il router del modello è il limite del più piccolo dei modelli sottostanti. Altri modelli sottostanti sono compatibili con finestre di contesto più grandi, il che significa che una chiamata API con un contesto più ampio avrà esito positivo solo se la richiesta viene instradata al modello corretto. Per esaminare le finestre di contesto per i modelli sottostanti, vedere Azure OpenAI nei modelli Microsoft Foundry.

Per abbreviare la finestra di contesto, è possibile eseguire una delle operazioni seguenti:

Riepilogare la richiesta prima di passarla al modello
Suddividere la richiesta in parti più rilevanti
Usare gli incorporamenti dei documenti e fare in modo che il modello di chat recuperi sezioni pertinenti. Per altre informazioni, vedere Che è Azure AI Search?

Il router modello accetta input di immagine per le chat abilitate per la visione artificiale (tutti i modelli sottostanti possono accettare l'input dell'immagine), ma la decisione di routing si basa solo sull'input di testo.

Il router del modello non elabora l'input audio.

Risoluzione dei problemi

Problema	Risoluzione
La distribuzione non riesce	Verificare che la risorsa Foundry si trovi negli Stati Uniti orientali 2 o in Svezia centrale.
Modelli Claude non instradati	Assicurarsi che i modelli Claude vengano distribuiti separatamente prima di abilitare nel router del modello.
Errore di superamento del contesto	Ridurre le dimensioni delle richieste o usare il subset del modello per selezionare i modelli con finestre di contesto più grandi.
Selezione imprevista del modello	Esaminare l'impostazione della modalità di routing (Bilanciato, Costo, Qualità) e la configurazione del subset del modello.

Per informazioni dettagliate sulla risoluzione dei problemi di distribuzione, vedere Come usare il router del modello.

Informazioni di fatturazione

L'utilizzo del router modello viene addebitato per i prompt di input alla tariffa elencata nella pagina dei prezzi.

È possibile monitorare i costi della distribuzione del router del modello nel portale di Azure.

Passaggio successivo

Come usare il router modello

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-05-06

Router modello per Microsoft Foundry

Come funziona un modello di router

Perché usare il router modello?

Versionamento

Modelli supportati

Modalità di routing

Sottoinsieme del modello

Failover automatico

Memorizzazione di prompt nella cache

Limitazioni

Limitazioni delle risorse

Limiti di frequenza

Risoluzione dei problemi

Informazioni di fatturazione

Passaggio successivo

Commenti e suggerimenti

Risorse aggiuntive