Usare il router modello per Microsoft Foundry

Il router del modello è un modello linguistico sottoposto a training che seleziona il modello LLM (Large Language Model) migliore per rispondere a una richiesta in tempo reale. Usa modelli preesistenti diversi per offrire prestazioni elevate e risparmiare sui costi di calcolo, tutti in un'unica distribuzione di modelli. Per altre informazioni sul funzionamento del router del modello, sui relativi vantaggi e limitazioni, vedere la guida ai concetti relativi ai router del modello. Per comprendere l'architettura e la logica di routing, vedere Funzionamento del router del modello.

Modelli supportati

Nota

Non è necessario distribuire separatamente i LLM supportati per l'uso con l'instradatore di modelli, ad eccezione dei modelli Claude. Per utilizzare il router di modelli con i tuoi modelli Claude, deploiali prima dal catalogo dei modelli. Le distribuzioni verranno richiamate dal router modello se sono selezionate per il routing.

Versione del modello di router Formato Modello Versione
2025-11-18 OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
DeepSeek
DeepSeek
OpenAI
Meta
xAI
xAI
Anthropic
Anthropic
Anthropic
Anthropic
gpt-4.0
gpt-4.0-mini
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5-nano
gpt-5-mini
gpt-5
gpt-5-chat
gpt-5.2
gpt-5.2-chat
Deepseek-V3.1 2
Deepseek-V3.2 2
gpt-oss-120b 2
Llama-4-Maverick-17B-128E-Instruct-FP8 2
grok-4 2
grok-4-fast-reasoning 2
claude-haiku-4-5 3
claude-sonnet-4-5 3
claude-opus-4-1 3
claude-opus-4-6 3
2024-11-20
2024-07-18
2025-04-14
2025-04-14
2025-04-14
2025-04-16
2025-08-07
2025-08-07
2025-08-07
2025-08-07
2025-12-11
2025-12-11
1
1
1
1
1
1
20251001
20250929
20250805
1
2025-08-07 OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
OpenAI
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
gpt-5 1
gpt-5-mini
gpt-5-nano
gpt-5-chat
2025-04-14
2025-04-14
2025-04-14
2025-04-16
2025-08-07
2025-08-07
2025-08-07
2025-08-07
2025-05-19 OpenAI
OpenAI
OpenAI
OpenAI
gpt-4.1
gpt-4.1-mini
gpt-4.1-nano
o4-mini
2025-04-14
2025-04-14
2025-04-14
2025-04-16
  • 1Richiede la registrazione.
  • 2Il supporto del router per il modello è disponibile in anteprima.
  • 3Il supporto per il router di modello è disponibile in anteprima. Richiede la distribuzione del modello per l'uso con il router del modello.

Distribuire un router modello

Il modello di router viene confezionato come un singolo modello Foundry che distribuisci. Per iniziare, seguire la procedura descritta nella guida alla distribuzione delle risorse.

Per distribuire a livello di codice senza il portale, usare gli esempi di API REST nelle sezioni di distribuzione seguenti.

Per impostazione predefinita, il router modello viene distribuito con la modalità di routing bilanciata e instrada attraverso l'intero set di modelli supportato. È sufficiente modificare la modalità di routing o selezionare un subset di modello quando si vuole un comportamento di routing personalizzato.

Screenshot della schermata di configurazione del modello di router.

Distribuzione predefinita

Passare al portale di Microsoft Foundry e passare al catalogo dei modelli. Trovare model-router nell'elenco Modelli e selezionarlo. Scegliere Impostazioni predefinite per la modalità di routing bilanciato e la route tra tutti i modelli supportati.

Suggerimento

Il percorso di distribuzione dell'API REST è destinato direttamente alla risorsa dell'account Foundry Microsoft e non richiede un progetto Foundry. Ciò lo rende una buona opzione per i clienti esistenti che distribuiscono e gestiscono i modelli Foundry senza associazione a un progetto.

Prima di eseguire gli esempi REST, accedere con interfaccia della riga di comando di Azure e salvare un token di connessione del piano di gestione come AZURE_AI_AUTH_TOKEN.

export AZURE_AI_AUTH_TOKEN=$(az account get-access-token --resource https://management.azure.com --query accessToken -o tsv)

Distribuire il router del modello programmaticamente con l'API REST di Azure Management. L'esempio seguente crea una distribuzione predefinita e si basa sulla modalità di routing bilanciata predefinita e sul set di modelli completo supportato.

curl -X PUT "https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/my-resource-group/providers/Microsoft.CognitiveServices/accounts/my-foundry-account/deployments/model-router-deployment?api-version=2025-10-01-preview" \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer $AZURE_AI_AUTH_TOKEN" \
    -d '{
        "sku": {"name": "GlobalStandard", "capacity": 10},
        "properties": {
                "model": {"format": "OpenAI", "name": "model-router", "version": "2025-11-18"}
        }
}'

Facoltativo: personalizzare le impostazioni di distribuzione

Per abilitare altre opzioni di configurazione, scegliere Impostazioni personalizzate.

Nota

Le impostazioni di distribuzione si applicano a tutti i modelli di chat sottostanti usati dal router del modello.

  • Non distribuire i modelli di chat sottostanti separatamente. Il router modello funziona indipendentemente dai tuoi altri modelli distribuiti.
  • Selezionare un filtro di contenuti quando si distribuisce il router del modello o si applica un filtro in un secondo momento. Il filtro contenuto si applica a tutto il contenuto passato da e verso il router del modello; non impostare filtri di contenuto per ogni modello di chat sottostante.
  • L'impostazione del limite di velocità dei token al minuto si applica a tutte le attività da e verso il router del modello; non impostare limiti di frequenza per ogni modello di chat sottostante.

Facoltativo: modificare la modalità di routing

Accedere a Microsoft Foundry. Assicurarsi che l'interruttore New Foundry sia attivato. Questi passaggi fanno riferimento a Foundry (nuovo).These steps refer to Foundry (new).

Usare l'elenco a discesa Modalità di instradamento per selezionare un profilo di instradamento. In questo modo viene impostata la logica di routing per la distribuzione.

Screenshot della selezione della modalità di routing del router modello.

Quando usare ogni modalità:

  • Bilanciato (impostazione predefinita): la maggior parte dei carichi di lavoro. Ottimizza i costi mantenendo la qualità.
  • Qualità: attività critiche come revisione legale, riepiloghi medici o ragionamenti complessi.
  • Costo: carichi di lavoro sensibili al budget elevati, ad esempio la classificazione dei contenuti o le domande e risposte semplici.

Nota

L'applicazione delle modifiche alla modalità di routing può richiedere fino a cinque minuti.

Facoltativo: indirizzare a un subset di modelli

Accedere a Microsoft Foundry. Assicurarsi che l'interruttore New Foundry sia attivato. Questi passaggi fanno riferimento a Foundry (nuovo).These steps refer to Foundry (new).

La versione più recente del router modello supporta subset personalizzati: è possibile specificare quali modelli sottostanti includere nelle decisioni di routing. In questo modo è possibile controllare maggiormente i costi, la conformità e le caratteristiche delle prestazioni.

Nel riquadro di distribuzione del router modello, selezionare Instrada verso un sottoinsieme di modelli. Selezionare quindi i modelli sottostanti da abilitare. È necessario selezionare almeno un modello per il routing. Se non sono selezionati modelli, la distribuzione usa il modello predefinito impostato per la modalità di routing.

Screenshot della selezione di un sottoinsieme di router del modello.

I nuovi modelli introdotti in seguito vengono esclusi per impostazione predefinita fino a quando non vengono aggiunti in modo esplicito.

Importante

Per includere modelli di Anthropic (Claude) nella distribuzione del router del modello, è necessario distribuirli autonomamente sulla risorsa Foundry. Vedere Distribuire e usare modelli Claude.

Nota

L'applicazione delle modifiche apportate al subset del modello può richiedere fino a cinque minuti.

Configurare le impostazioni personalizzate con l'API REST

Usare l'esempio seguente quando si desidera impostare sia la modalità di routing che un subset di modello nella stessa richiesta di distribuzione.

Aggiungere un routing blocco solo quando si desidera eseguire l'override della modalità Bilanciata predefinita o limitare il set di modelli instradati. L'esempio seguente mantiene la richiesta personalizzata combinata con una modalità di routing e un subset di modello.

Nota

Il corpo della richiesta di distribuzione usa format, namee version per il router del modello stesso e per ogni modello nel subset di routing. Trovare i valori corretti per ogni modello nella tabella dei modelli supportati in questo articolo.

curl -X PUT "https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/my-resource-group/providers/Microsoft.CognitiveServices/accounts/my-foundry-account/deployments/model-router-deployment?api-version=2025-10-01-preview" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_AI_AUTH_TOKEN" \
  -d '{
    "sku": {"name": "GlobalStandard", "capacity": 10},
    "properties": {
        "model": {"format": "OpenAI", "name": "model-router", "version": "2025-11-18"},
        "routing": {
            "mode": "balanced",
            "models": [
                {"format": "OpenAI", "name": "gpt-4.1", "version": "2025-04-14"},
                {"format": "OpenAI", "name": "gpt-5.2-chat", "version": "2025-12-11"},
                {"format": "Meta", "name": "Llama-4-Maverick-17B-128E-Instruct-FP8", "version": "1"}
            ]
        }
    }
}'

Suggerimento

Per l'esempio eseguibile completo e altre opzioni di distribuzione (solo modalità di routing, solo subset del modello), vedere l'esempio REST del router del modello nel repository foundry-samples.

Importante

Se si includono Anthropic Claude modelli nella matrice routing.models, è necessario prima di tutto distribuirli nello stesso account Foundry con uno SKU corrispondente. In caso contrario, la richiesta ha esito negativo con un InvalidResourceProperties errore. Distribuire modelli Claude dal catalogo dei modelli Foundry prima di farvi riferimento in una distribuzione del router del modello. Vedere Distribuire e usare modelli Claude.

Testare il router del modello con risposte di Foundry e completamenti della chat

Chiamare il modello router allo stesso modo in cui si chiama qualsiasi modello di chat OpenAI. Impostare il parametro model al nome del modello della distribuzione del router. È possibile usare Microsoft Foundry SDK con l'API Risposte o OpenAI Python SDK con l'API Completamento chat.

Nota

Installare i pacchetti necessari prima di eseguire gli esempi:

  • Risposte della fonderia: pip install azure-ai-projects>=2.0.0 azure-identity
  • Completamento chat: pip install openai>=1.75.0
with (
    DefaultAzureCredential() as credential,
    AIProjectClient(endpoint=project_endpoint, credential=credential) as project_client,
    project_client.get_openai_client() as openai_client,
):
    response = openai_client.responses.create(
        model=deployment,
        input="In one sentence, name the most popular tourist destination in Seattle.",
    )

Suggerimento

Per gli esempi completi eseguibili, vedere Esempi di router modello nel repository foundry-samples.

Testare il modello di router nel campo di prova

Nel portale Foundry, passa alla distribuzione del router per il modello nella pagina Modelli + endpoint e selezionalo per aprire il playground del modello. Nel playground immettere i messaggi e visualizzare le risposte del modello. Ogni risposta mostra il modello sottostante selezionato dal router.

Importante

È possibile impostare i Temperature parametri e Top_P sui valori preferiti (vedere la guida ai concetti), ma si noti che i modelli di ragionamento (serie o) non supportano questi parametri. Se il router del modello seleziona un modello di ragionamento per il prompt, ignora i parametri di input Temperature e Top_P.

I parametri stop, presence_penalty, frequency_penalty, logit_biase logprobs vengono eliminati in modo analogo per i modelli di serie O, ma usati in caso contrario.

Importante

A partire dalla versione 2025-11-18, il parametro reasoning_effort (vedere la Guida ai modelli di ragionamento) è ora supportato nel modello router. Se il router del modello seleziona un modello di ragionamento per il prompt, utilizzerà il valore di input reasoning_effort con il modello di base.

Connettere il router del modello a un agente Foundry

Accedere a Microsoft Foundry. Assicurarsi che l'interruttore New Foundry sia attivato. Questi passaggi fanno riferimento a Foundry (nuovo).These steps refer to Foundry (new).

Se hai creato un agente di intelligenza artificiale in Foundry, puoi connettere la distribuzione del routing del modello da utilizzare come modello base dell'agente. Selezionarlo dal menu a discesa del modello nel playground dell'agente. L'agente avrà tutti gli strumenti e le istruzioni configurate, ma il modello sottostante che elabora le risposte verrà selezionato dall'instradatore del modello.

Importante

Se si usano gli strumenti del servizio Agent nei flussi, verranno usati solo i modelli OpenAI per il routing.

Formato di output

La risposta JSON ricevuta da un modello di router è identica alla risposta API di completamento della chat standard. Si noti che il "model" campo indica quale modello sottostante è stato selezionato per rispondere alla richiesta.

La risposta di esempio seguente è stata generata usando la versione 2025-11-18dell'API :


{
    "success": true,
    "data": {
        "choices": [
            {
                "content_filter_results": {
                    "hate": {
                        "filtered": false,
                        "severity": "safe"
                    },
                    "protected_material_code": {
                        "filtered": false,
                        "detected": false
                    },
                    "protected_material_text": {
                        "filtered": false,
                        "detected": false
                    },
                    "self_harm": {
                        "filtered": false,
                        "severity": "safe"
                    },
                    "sexual": {
                        "filtered": false,
                        "severity": "safe"
                    },
                    "violence": {
                        "filtered": false,
                        "severity": "safe"
                    }
                },
                "finish_reason": "stop",
                "index": 0,
                "logprobs": null,
                "message": {
                    "annotations": [],
                    "content": "Charismatic and bold—combining brash showmanship and poetic wit with fierce competitiveness, moral conviction, and unwavering activism.",
                    "refusal": null,
                    "role": "assistant"
                }
            }
        ],
        "created": 1774543376,
        "id": "xxxx-yyyy-zzzz",
        "model": "gpt-5-mini-2025-08-07",
        "object": "chat.completion",
        "prompt_filter_results": [
            {
                "prompt_index": 0,
                "content_filter_results": {
                    "hate": {
                        "filtered": false,
                        "severity": "safe"
                    },
                    "jailbreak": {
                        "filtered": false,
                        "detected": false
                    },
                    "self_harm": {
                        "filtered": false,
                        "severity": "safe"
                    },
                    "sexual": {
                        "filtered": false,
                        "severity": "safe"
                    },
                    "violence": {
                        "filtered": false,
                        "severity": "safe"
                    }
                }
            }
        ],
        "system_fingerprint": null,
        "usage": {
            "completion_tokens": 163,
            "completion_tokens_details": {
                "accepted_prediction_tokens": 0,
                "audio_tokens": 0,
                "reasoning_tokens": 128,
                "rejected_prediction_tokens": 0
            },
            "prompt_tokens": 3254,
            "prompt_tokens_details": {
                "audio_tokens": 0,
                "cached_tokens": 3200
            },
            "total_tokens": 3417
        }
    }
}

Monitorare le metriche del router modello

Monitorare le prestazioni

Monitorare le prestazioni della distribuzione del router del modello in Monitoraggio di Azure (AzMon) nel portale di Azure.

  1. Passare alla pagina Monitoring>Metrics per la risorsa OpenAI Azure nel portale di Azure.
  2. Filtrare in base al nome dell'implementazione del modello di router.
  3. Suddividere le metriche in base ai modelli sottostanti, se necessario.

Monitorare i costi

È possibile monitorare i costi del router del modello, ovvero la somma dei costi sostenuti dai modelli sottostanti.

  1. Visitare la pagina Resource Management ->Cost analysis nel portale di Azure.
  2. Se necessario, filtrare in base alla risorsa di Azure.
  3. Filtrare quindi in base al nome della distribuzione: Filtrare in base a "Tag", selezionare Distribuzione come tipo del tag e quindi selezionare il nome della distribuzione del router del modello come valore.

Risoluzione dei problemi del modello di router

Problemi comuni

Problema Causa Risoluzione
Limite di velocità superato Troppe richieste per il deployment del router di modello Aumentare la quota di token al minuto o implementare un nuovo tentativo con backoff esponenziale
Selezione imprevista del modello La logica di routing ha selezionato un modello diverso da quello previsto Esaminare le impostazioni della modalità di routing; prendere in considerazione l'uso del subset del modello per vincolare le opzioni
Latenza elevata Overhead del router e elaborazione del modello sottostante Usare la modalità costo per carichi di lavoro sensibili alla latenza; i modelli più piccoli rispondono più velocemente
Modello Claude non è in fase di instradamento I modelli Claude richiedono una distribuzione separata Distribuire i modelli Claude dal catalogo dei modelli prima di abilitarli nel sottogruppo

Codici di errore

Per i codici di errore e la risoluzione dei problemi dell'API, vedere le informazioni di riferimento Azure API REST OpenAI.

Risorse

I seguenti repository open-source mettono in mostra un router modello in diversi scenari. Ogni repository è su GitHub: impara, fai fork ed estendi per accelerare il tuo apprendimento. La maggior parte degli esempi richiede una distribuzione del router modello esistente; vedere Distribuire un modello di router modello per iniziare.

Risorsa Imparare Estendere
Dimostrazione Interattiva delle Capacità del Router Modello (Python) Confrontare le modalità di routing Bilanciato, Costo e Qualità con richieste personalizzate. Visualizzare i dati del benchmark live per risparmi sui costi, latenza e distribuzione del routing. Aggiungi set di prompt personalizzati, integrati con la tua pipeline di CI, o connettiti alla tua distribuzione per eseguire test A/B.
Analisi della distribuzione dei modelli instradati (Python) Eseguire lotti di richieste tra profili di routing e sottoinsiemi di modelli. Visualizzare i modelli selezionati dal router e in quali proporzioni. Integra i log rappresentativi dei prompt per valutare i compromessi prima di adottare una politica di instradamento su larga scala.
Sceanrios multi-team con qualità e Benchmarking dei costi (Python, workshop) Distribuire il router del modello, eseguire benchmark sulle distribuzioni a modello fisso e analizzare l'ottimizzazione dei costi e della latenza in uno scenario aziendale multi-team. Integra i tuoi modelli, prompt e profili di routing per effettuare benchmark rispetto ai modelli di carico di lavoro.
Demo On-Call Copilot multi-agent (Python) Vedere in che modo il router del modello seleziona in modo dinamico il modello appropriato per ogni passaggio dell'agente, ovvero un modello rapido e a basso costo per la classificazione e un modello di ragionamento per l'analisi della causa radice. Adattare l'architettura multi-agente, i ruoli agente e i percorsi di escalation per le proprie operazioni o scenari di supporto.

Importante

Questi esempi sono destinati solo all'apprendimento e alla sperimentazione e non sono pronti per la produzione. Prima di distribuire qualsiasi codice derivato da questi repository, esaminarlo in base ai criteri di sicurezza, conformità e intelligenza artificiale responsabile dell'organizzazione. Per indicazioni, vedere Microsoft Principi di IA responsabili.

Passaggi successivi