Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Il "Model Router" è un modello linguistico addestrato che instrada in modo intelligente le richieste in tempo reale al modello linguistico più appropriato (LLM). Si distribuisce un router modello come qualsiasi altro modello Foundry. Di conseguenza, offre prestazioni elevate, risparmiando sui costi, riducendo le latenze e aumentando la velocità di risposta, mantenendo al tempo stesso una qualità paragonabile, tutto in pacchetto come una singola distribuzione del modello.
Nota
Non è necessario distribuire separatamente i file LLM supportati per l'uso con il router del modello, ad eccezione dei modelli Claude. Per utilizzare il router di modelli con i modelli Claude, distribuiscili prima dal catalogo dei modelli. Le distribuzioni vengono richiamate dal modello di router se selezionate per il routing.
Per provare rapidamente il router del modello, seguire Come usare il router del modello. Dopo aver distribuito il router del modello, inviare una richiesta alla distribuzione. Il router del modello seleziona un modello sottostante per ogni richiesta in base alle impostazioni di routing. Per un approfondimento sulla pipeline di routing, l'addestramento e la logica delle decisioni, vedere Funzionamento del router del modello.
Come funziona un modello di router
Come modello linguistico addestrato, il router del modello analizza i tuoi prompt in tempo reale in base alla complessità, al ragionamento, al tipo di attività e ad altri attributi. Non archivia le richieste. Instrada solo i modelli idonei in base ai tipi di accesso e distribuzione, rispettando i limiti della zona dati.
Importante
La finestra di contesto effettiva è limitata dal modello sottostante più piccolo. Per i contesti più grandi, usare il subset del modello per selezionare i modelli che supportano i requisiti.
- In modalità bilanciata (impostazione predefinita), considera tutti i modelli sottostanti all'interno di un intervallo di qualità ridotto (ad esempio, 1% a 2% rispetto al modello di massima qualità per tale richiesta) e sceglie il modello più conveniente.
- In modalità Costo, considera una banda di qualità maggiore (ad esempio, da 5% a 6% rispetto al modello di alta qualità per tale richiesta) e sceglie il modello più conveniente.
- In modalità Qualità seleziona il modello di qualità più alta per la richiesta, ignorando il costo.
Perché usare il router modello?
Il router modello ottimizza i costi e le latenze mantenendo al contempo una qualità paragonabile. I modelli più piccoli e più economici vengono usati quando sono sufficienti per l'attività, ma i modelli più grandi e più costosi sono disponibili per attività più complesse. Inoltre, i modelli di ragionamento sono disponibili per le attività che richiedono un ragionamento complesso e i modelli non di ragionamento vengono usati in caso contrario. Il router modello offre una singola esperienza di distribuzione e chat che combina le migliori funzionalità di tutti i modelli di chat sottostanti.
La versione più recente include 2025-11-18 diverse funzionalità:
- Supporta le distribuzioni Standard Globali e Standard della Zona Dati.
- Aggiunge il supporto per i nuovi modelli:
grok-4,grok-4-fast-reasoningDeepSeek-V3.1,DeepSeek-V3.2, ,gpt-oss-120b,Llama-4-Maverick-17B-128E-Instruct-FP8gpt-4o,gpt-4o-minigpt-5.2gpt-5.2-chatclaude-haiku-4-5claude-sonnet-4-5, ,claude-opus-4-1, e .claude-opus-4-6 - Distribuzione rapida o Distribuzione personalizzata con modalità di routing e opzioni di subset del modello .
-
Modalità di routing: ottimizza la logica di routing per le proprie esigenze. Opzioni supportate:
Quality,Cost,Balanced(impostazione predefinita). - Subset del modello: selezionare i modelli preferiti per creare il subset del modello per il routing.
- Supporto per gli scenari agenti, inclusi gli strumenti, in modo da poterlo usare nel servizio agente Foundry.
Versionamento
Ogni versione del router modello è associata a un set specifico di modelli sottostanti e alle relative versioni. Questo set è fisso. Solo le versioni più recenti del modello di router possono esporre nuovi modelli di base.
Se si seleziona Aggiornamento automatico nel passaggio di distribuzione (vedere Aggiornamenti del modello), il modello di router del modello viene aggiornato automaticamente quando diventano disponibili nuove versioni. In questo caso, anche il set di modelli sottostanti cambia, che potrebbe influire sulle prestazioni complessive del modello e dei costi.
Modelli supportati
Nota
Non è necessario distribuire separatamente i moduli di gestione dei modelli supportati per l'uso con il router del modello, ad eccezione dei modelli Claude. Per usare il modello di router con i modelli Claude, distribuiscili prima dal catalogo dei modelli. Le distribuzioni verranno richiamate dal router modello se sono selezionate per il routing.
| Versione del modello di router | Formato | Modello | Versione |
|---|---|---|---|
2025-11-18 |
OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI DeepSeek DeepSeek OpenAI Meta xAI xAI Anthropic Anthropic Anthropic Anthropic |
gpt-4.0
gpt-4.0-mini
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5-nano gpt-5-mini gpt-5 gpt-5-chat gpt-5.2 gpt-5.2-chat Deepseek-V3.1
2 Deepseek-V3.2
2gpt-oss-120b
2 Llama-4-Maverick-17B-128E-Instruct-FP8
2 grok-4
2 grok-4-fast-reasoning
2 claude-haiku-4-5
3 claude-sonnet-4-5
3 claude-opus-4-1
3 claude-opus-4-6
3 |
2024-11-20 2024-07-18 2025-04-14 2025-04-14 2025-04-14 2025-04-16 2025-08-07 2025-08-07 2025-08-07 2025-08-07 2025-12-11 2025-12-11 1 1 1 1 1 1 20251001 20250929 20250805 1 |
2025-08-07 |
OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI OpenAI |
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5
1 gpt-5-mini gpt-5-nano gpt-5-chat |
2025-04-14 2025-04-14 2025-04-14 2025-04-16 2025-08-07 2025-08-07 2025-08-07 2025-08-07 |
2025-05-19 |
OpenAI OpenAI OpenAI OpenAI |
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
|
2025-04-14 2025-04-14 2025-04-14 2025-04-16 |
- 1Richiede la registrazione.
- 2Il supporto del router per il modello è disponibile in anteprima.
- 3Il supporto per il router di modello è disponibile in anteprima. Richiede la distribuzione del modello per l'uso con il router del modello.
Modalità di routing
Con la versione più recente, se si sceglie una distribuzione personalizzata, è possibile selezionare la modalità di routing per ottimizzare la qualità o i costi mantenendo al tempo stesso un livello di prestazioni di base. L'impostazione di una modalità di routing è facoltativa e, se non ne viene impostata una, per impostazione predefinita la distribuzione viene impostata sulla modalità bilanciata.
Modalità di routing disponibili:
| Modalità | Descrizione |
|---|---|
| Bilanciato (impostazione predefinita) | Considera i costi e la qualità in modo dinamico. Perfetto per scenari per utilizzo generico |
| Qualità | Assegna priorità per la massima accuratezza. Ideale per motivi complessi o output critici |
| Costo | Assegna priorità per un maggiore risparmio sui costi. Ideale per carichi di lavoro con volumi elevati e sensibili al budget |
Sottoinsieme del modello
La versione più recente del modello di router supporta sottoinsiemi di modelli: è possibile specificare quali modelli sottostanti includere nelle decisioni di instradamento. In questo modo è possibile controllare maggiormente i costi, la conformità e le caratteristiche delle prestazioni.
Quando i nuovi modelli di base diventano disponibili, non vengono inclusi nella selezione, a meno che non vengano aggiunti esplicitamente all'elenco di inclusione della distribuzione.
Failover automatico
Il router modello ora include il failover automatico integrato. Quando si usa la distribuzione predefinita per indirizzare a tutti i modelli supportati, il router del modello reindirizza in modo trasparente la richiesta al modello più appropriato successivo, quindi i problemi temporanei con qualsiasi singolo modello non interrompono l'applicazione. Il failover è abilitato per impostazione predefinita. Non è necessaria alcuna configurazione aggiuntiva.
Per le configurazioni di distribuzione personalizzate:
- La modalità di routing selezionata (Bilanciato, Costo o Qualità) continua a essere applicata durante il failover.
- Il subset del modello configurato funziona anche come set di fallback per impedire che le richieste vengano elaborate da modelli non approvati. Assicurarsi quindi di selezionare subset di modelli con almeno due modelli per trarre vantaggio dalla funzionalità di fallback.
Memorizzazione di prompt nella cache
Il router modello supporta la memorizzazione nella cache dei prompt perché le richieste vengono elaborate dai modelli sottostanti che lo supportano. Quando il router del modello delega una richiesta a un modello che supporta la memorizzazione nella cache dei prompt, i token memorizzati nella cache vengono usati automaticamente. Non è necessaria alcuna configurazione aggiuntiva.
Il comportamento della cache dipende dal modello sottostante selezionato dal router per una determinata richiesta. Poiché le decisioni di routing possono variare, i vantaggi della memorizzazione nella cache si applicano solo quando lo stesso modello gestisce le richieste consecutive con prefissi di prompt sovrapposti.
Per informazioni dettagliate sul funzionamento della memorizzazione nella cache dei prompt e sui modelli che lo supportano, vedere Memorizzazione nella cache dei prompt.
Limitazioni
Limitazioni delle risorse
| Regione | Tipi di distribuzione supportati |
|---|---|
| Stati Uniti orientali 2 | Standard Globale, Standard di Zona Dati |
| Svezia centrale | Standard Globale, Standard Zona dei Dati |
Consulta anche Azure OpenAI nei modelli Microsoft Foundry per la disponibilità della regione corrente.
Limiti di frequenza
| Modello | Tipo di distribuzione | RPM predefinito | TPM predefinito | Enterprise e MCA-E RPM | TPM aziendale e MCA-E |
|---|---|---|---|---|---|
model-router (2025-11-18) |
DataZoneStandard | 150 | 150,000 | 300 | 300,000 |
model-router (2025-11-18) |
GlobalStandard | 250 | 250,000 | 400 | 400,000 |
Vedere anche Quote e limiti per informazioni sul limite di velocità.
Per superare i limiti relativi alla finestra di contesto e ai parametri, usare la funzionalità Subset model per selezionare i modelli per il routing che supportano le proprietà desiderate.
Nota
Il limite della finestra di contesto specificato per il router del modello è il limite del più piccolo dei modelli sottostanti. Altri modelli sottostanti sono compatibili con finestre di contesto più grandi, il che significa che una chiamata API con un contesto più ampio avrà esito positivo solo se la richiesta viene instradata al modello corretto. Per esaminare le finestre di contesto per i modelli sottostanti, vedere Azure OpenAI nei modelli Microsoft Foundry.
Per abbreviare la finestra di contesto, è possibile eseguire una delle operazioni seguenti:
- Riepilogare la richiesta prima di passarla al modello
- Suddividere la richiesta in parti più rilevanti
- Usare gli incorporamenti dei documenti e fare in modo che il modello di chat recuperi sezioni pertinenti. Per altre informazioni, vedere Che è Azure AI Search?
Il router modello accetta input di immagine per le chat abilitate per la visione artificiale (tutti i modelli sottostanti possono accettare l'input dell'immagine), ma la decisione di routing si basa solo sull'input di testo.
Il router del modello non elabora l'input audio.
Risoluzione dei problemi
| Problema | Risoluzione |
|---|---|
| La distribuzione non riesce | Verificare che la risorsa Foundry si trovi negli Stati Uniti orientali 2 o in Svezia centrale. |
| Modelli Claude non instradati | Assicurarsi che i modelli Claude vengano distribuiti separatamente prima di abilitare nel router del modello. |
| Errore di superamento del contesto | Ridurre le dimensioni delle richieste o usare il subset del modello per selezionare i modelli con finestre di contesto più grandi. |
| Selezione imprevista del modello | Esaminare l'impostazione della modalità di routing (Bilanciato, Costo, Qualità) e la configurazione del subset del modello. |
Per informazioni dettagliate sulla risoluzione dei problemi di distribuzione, vedere Come usare il router del modello.
Informazioni di fatturazione
L'utilizzo del router modello viene addebitato per i prompt di input alla tariffa elencata nella pagina dei prezzi.
È possibile monitorare i costi della distribuzione del router del modello nel portale di Azure.