Distribuire Microsoft modelli Foundry in un ambiente di calcolo gestito con fatturazione con pagamento in base al consumo (versione classica)

Si applica solo a:Portale di Foundry (versione classica). Questo articolo non è disponibile per il nuovo portale foundry. Altre informazioni sul nuovo portale.

Nota

I collegamenti in questo articolo potrebbero aprire contenuto nella nuova documentazione di Microsoft Foundry anziché nella documentazione di Foundry (versione classica) visualizzata.

Microsoft Foundry Models include un catalogo completo di modelli organizzati in due categorie, ovvero modelli venduti direttamente da Azure e modelli di partner e community. I modelli dei partner e della community, che è possibile distribuire nel calcolo gestito, sono modelli aperti o protetti. Questo articolo illustra come usare modelli protetti di partner e community, offerti tramite Azure Marketplace, per la distribuzione in ambiente di calcolo gestito con fatturazione con pagamento in base al consumo.

Prerequisiti

  • Sottoscrizione Azure con un metodo di pagamento valido. Le sottoscrizioni gratuite o di valutazione Azure non funzionano. Se non si ha una sottoscrizione Azure, creare un account Azure a pagamento per iniziare.

  • Se non ne hai uno, crea un progetto hub per Foundry. È possibile eseguire la distribuzione nel calcolo gestito usando un progetto hub. Un progetto Foundry non funzionerà a questo scopo.

  • Abilitato l'acquisto su Azure Marketplace per la sottoscrizione di Azure.

  • Azure i controlli degli accessi in base al ruolo (Azure RBAC) concedono l'accesso alle operazioni nel portale Foundry. Per eseguire la procedura descritta in questo articolo, all'account utente deve essere assegnato un ruolo personalizzato con le autorizzazioni seguenti. Gli account utente assegnati al ruolo Owner o Contributor per la sottoscrizione Azure possono anche creare distribuzioni. Per altre informazioni sulle autorizzazioni, vedere Controllo degli accessi in base al ruolo nel portale di Foundry.

  • Nella sottoscrizione Azure: per sottoscrivere l'area di lavoro o il progetto all'offerta di Azure Marketplace:

    • Microsoft.MarketplaceOrdering/accordi/offerte/piani/leggi
    • Microsoft. MarketplaceOrdering/agreements/offers/plans/sign/action
    • Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
    • Microsoft. Marketplace/offerTypes/publishers/offers/plans/agreements/read
    • Microsoft. SaaS/register/action
  • Nel gruppo di risorse : per creare e usare la risorsa SaaS:

    • Microsoft. SaaS/resources/read
    • Microsoft. SaaS/resources/write
  • Nell'area di lavoro: per distribuire gli endpoint:

    • Microsoft. MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
    • Microsoft. MachineLearningServices/workspaces/onlineEndpoints/*

Ambito dell'abbonamento e unità di misura dell'offerta di Azure Marketplace

Foundry offre un'esperienza fluida di sottoscrizione e transazione per i modelli protetti mentre crei e utilizzi le tue distribuzioni di modelli dedicati su vasta scala. La distribuzione di modelli protetti nel calcolo gestito comporta la fatturazione con pagamento in base al consumo per il cliente in due dimensioni:

  • Fatturazione oraria del calcolo di Azure Machine Learning per le macchine virtuali usate nella distribuzione.
  • Fatturazione del sovrapprezzo per il modello impostato dall'editore del modello nell'offerta Azure Marketplace.

La fatturazione con pagamento in base al consumo del calcolo di Azure e del sovrapprezzo del modello viene ripartita al minuto in base al tempo di attività delle distribuzioni online gestite. Il supplemento per un modello è un prezzo per ora gpu, impostato dal partner (o dall'editore del modello) su Azure Marketplace, per tutte le GPU supportate che è possibile usare per distribuire il modello in calcolo gestito di Foundry.

La sottoscrizione di un utente alle offerte di Azure Marketplace è limitata alla risorsa di progetto all'interno di Foundry. Se una sottoscrizione all'offerta di Azure Marketplace per un determinato modello esiste già all'interno del progetto, l'utente viene informato nella distribuzione guidata che la sottoscrizione esiste già per il progetto.

Nota

Per i microservizi di inferenza NVIDIA (NIM), più modelli sono associati a una singola offerta del marketplace, quindi è necessario sottoscrivere l'offerta NIM una sola volta all'interno di un progetto per poter distribuire tutte le macchine virtuali offerte da NVIDIA nel catalogo dei modelli foundry. Se si desidera distribuire NIC in un progetto diverso senza una sottoscrizione SaaS esistente, è necessario ripetere la sottoscrizione all'offerta.

Per trovare tutte le sottoscrizioni SaaS presenti in una sottoscrizione Azure:

  1. Accedere al portale Azure e passare alla sottoscrizione Azure.

  2. Selezionare Subscriptions e quindi selezionare la sottoscrizione Azure per aprire la relativa pagina di panoramica.

  3. Selezionare Impostazioni>Risorse per visualizzare l'elenco delle risorse.

  4. Usare il filtro Tipo per selezionare il tipo di risorsa SaaS.

Il sovrapprezzo basato sul consumo passa alla sottoscrizione SaaS associata e fattura l'utente tramite Azure Marketplace. È possibile visualizzare la fattura nella scheda Panoramica della rispettiva sottoscrizione SaaS.

Sottoscrivere e distribuire nell'ambiente di calcolo gestito

Suggerimento

Poiché è possibile customizzare il riquadro sinistro nel portale di Microsoft Foundry, è possibile che vengano visualizzati elementi diversi rispetto a quelli illustrati in questi passaggi. Se non viene visualizzato ciò che si sta cercando, selezionare ... Altro nella parte inferiore del riquadro sinistro.

  1. Accedere a Microsoft Foundry. Assicurarsi che l'interruttore New Foundry sia disattivato. Questi passaggi fanno riferimento a Foundry (versione classica).

  2. Se non sei già nel progetto, selezionalo.

  3. Selezionare Catalogo modelli nel riquadro sinistro.

  4. Filtrare l'elenco dei modelli selezionando la raccolta e il modello desiderati. Questo articolo usa il comando A di Coherenell'elenco dei modelli supportati per l'illustrazione.

  5. Nella pagina del modello selezionare Usa questo modello per aprire la distribuzione guidata.

  6. Se sono disponibili opzioni di acquisto, selezionare Calcolo gestito.

  7. Se non si dispone di una quota dedicata, selezionare la casella di controllo accanto all'istruzione : Si vuole usare la quota condivisa e si riconosce che questo endpoint verrà eliminato in 168 ore.

  8. Scegliere uno degli SKU di macchina virtuale (VM) supportati per il modello. È necessario disporre della quota di calcolo Azure Machine Learning per quello SKU nella sottoscrizione di Azure.

  9. Selezionare Personalizza per specificare la configurazione della distribuzione per i parametri, ad esempio il numero di istanze. È anche possibile selezionare un endpoint esistente per la distribuzione o crearne uno nuovo. Per questo esempio, specificare un numero di istanze pari a 1 e creare un nuovo endpoint per la distribuzione.

    Screenshot della schermata di configurazione della distribuzione per un modello protetto in Foundry.

  10. Selezionare Avanti per passare alla pagina di dettaglio dei prezzi .

  11. Esaminare la suddivisione dei prezzi per la distribuzione, le condizioni per l'utilizzo e il contratto di licenza associati all'offerta del modello in Azure Marketplace. La suddivisione dei prezzi indica quale sarebbe il prezzo aggregato per il modello distribuito, dove il sovrapprezzo per il modello è una funzione del numero di GPU nell'istanza di macchina virtuale selezionata nei passaggi precedenti. Oltre al sovrapprezzo applicabile per il modello, si applicano anche i costi di calcolo Azure in base alla configurazione della distribuzione. Se sono presenti prenotazioni o piani di risparmio Azure esistenti, la fattura per gli addebiti di calcolo rispetta e riflette i prezzi delle macchine virtuali scontate.

    Screenshot della pagina di suddivisione dei prezzi per una distribuzione di modelli protetti in Foundry.

  12. Selezionare la casella di controllo per confermare che si è compreso e accettare le condizioni per l'utilizzo. Selezionare quindi Distribuisci. Foundry crea la sottoscrizione all'offerta del marketplace e quindi crea la distribuzione del modello in un ambiente di calcolo gestito. Il completamento della distribuzione richiede circa 15-20 minuti.

Consumare le distribuzioni

Dopo aver creato correttamente la distribuzione, seguire questa procedura per usarla:

  1. Selezionare Modelli e endpoint in Risorse personali nel progetto Foundry.
  2. Selezionare la distribuzione nella scheda Distribuzioni modello .
  3. Passare alla scheda Test per l'inferenza di esempio sull'endpoint.
  4. Tornare alla scheda Dettagli per copiare l'URI di destinazione della distribuzione, che è possibile usare per eseguire l'inferenza con il codice.
  5. Passare alla scheda Utilizzo della distribuzione per trovare esempi di codice per l'utilizzo.

Isolamento di rete delle implementazioni

È possibile distribuire raccolte nel catalogo dei modelli all'interno delle reti isolate usando la rete virtuale gestita dell'area di lavoro. Per altre informazioni su come configurare le reti gestite dell'area di lavoro, vedere Configurare una rete virtuale gestita per consentire internet in uscita.

Limitazione

Un progetto Foundry con accesso alla rete pubblica in ingresso disabilitato può supportare solo una singola distribuzione attiva di uno dei modelli protetti dal catalogo. I tentativi di creare distribuzioni più attive generano errori di creazione della distribuzione.

Modelli supportati

Le sezioni seguenti elencano i modelli supportati per la distribuzione di calcolo gestita con fatturazione con pagamento in base al consumo, raggruppati per raccolta.

Boson AI

Modello Attività
bosonai-higgs-audio-v3-stt Riconoscimento vocale automatico
Higgs-Audio-v2.5 Generazione di audio

Cohere

Modello Attività
Comando A Completamento della chat
Incorporare v4 Incorporamenti
Rerank v3.5 Classificazione del testo
Cohere-rerank-v4.0-pro classificazione del testo con riordinamento
Cohere-rerank-v4.0-fast classificazione del testo rerank

Domyn

Modello Attività
Domyn-Large Completamento della chat

Inception Labs

Modello Attività
Mercurio Completamento della chat, generazione di testo, riepilogo

NVIDIA

I microservizi di inferenza NVIDIA (NIM) sono contenitori compilati da NVIDIA per modelli di intelligenza artificiale ottimizzati e personalizzati che servono su GPU NVIDIA. È possibile distribuire macchine virtuali NVIDIA disponibili nel catalogo dei modelli Foundry con una sottoscrizione Standard all'offerta SaaS NVIDIA NIM in Azure Marketplace.

Ecco alcuni aspetti speciali da notare sulle NIC:

  • I NIM includono una prova gratuita di 90 giorni. Il periodo di prova si applica a tutti i NIM associati a una particolare sottoscrizione SaaS e inizia dal momento in cui viene creata la sottoscrizione SaaS.

  • Ambito delle sottoscrizioni SaaS a un progetto Foundry. Poiché più modelli sono associati a una singola offerta di Azure Marketplace, è necessario sottoscrivere una sola volta l'offerta NIM all'interno di un progetto, quindi è possibile distribuire tutte le NIC offerte da NVIDIA nel catalogo dei modelli foundry. Se si desidera distribuire NIC in un progetto diverso senza una sottoscrizione SaaS esistente, è necessario ripetere la sottoscrizione all'offerta.

Modello Attività
NVIDIA-Nemotron-3-Super-NIM-microservice Completamento della chat, Risposta alle domande, Riepilogo, Generazione di testo, Riepilogo del testo
microservizio Openfold3_1_2_0-NIM Stima della struttura complessa biomolecolare
Llama-3.3-Nemotron-Super-49B-v1-NIM-microservice Completamento della chat
Llama-3.1-Nemotron-Nano-8B-v1-NIM-microservice Completamento della chat
Deepseek-R1-Distill-Llama-8B-NIM-microservice Completamento della chat
Llama-3.3-70B-Instruct-NIM-microservice Completamento della chat
Llama-3.1-8B-Instruct-NIM-microservice Completamento della chat
Mistral-7B-Instruct-v0.3-NIM-microservice Completamento della chat
Mixtral-8x7B-Instruct-v0.1-NIM-microservice Completamento della chat
Llama-3.2-NV-embedqa-1b-v2-NIM-microservice Incorporamenti
Llama-3.2-NV-rerankqa-1b-v2-NIM-microservice Classificazione del testo
Microservizio Openfold2-NIM Binder proteico
Microservizio ProteinMPNN-NIM Binder proteico
MSA-search-NIM-microservice Binder proteico
Microservizio Rfdiffusion-NIM- Binder proteico
NVIDIA-Nemotron-Nano-9b-v2-NIM-microservice Completamento della chat
Trellis-NIM-microservice Da immagine a 3D, da testo a 3D, generazione 3D
Cosmos-reason1-NIM-microservice Verifica del completamento dell'attività, Affordance dell'azione, Previsione della prossima azione plausibile
Evo2-40b-NIM-microservice Genomica
Boltz2-NIM-microservice Predizione della Struttura
Llama-3.3-Nemotron-Super-49B-v1.5-NIM-microservice Completamento della chat, Riepilogo

Usare le implementazioni NVIDIA NIM

Dopo aver creato la distribuzione, seguire la procedura descritta in Utilizzare le distribuzioni per usarla.

I NIM di NVIDIA su Foundry espongono un'API compatibile con OpenAI. Per altre informazioni sul payload supportato, vedere le informazioni di riferimento sulle API . Il model parametro per NIMs su Foundry è impostato su un valore predefinito all'interno del contenitore e non è necessario nel payload di richiesta per l'endpoint online. La scheda Utilizzo della distribuzione NIM in Foundry include esempi di codice per l'inferenza con l'URL di destinazione della distribuzione.

È anche possibile usare le distribuzioni NIM usando Foundry Models SDK, con limitazioni che includono:

Sviluppare ed eseguire agenti con endpoint NIM

I seguenti TIPI di attività NVIDIA NIMS of chat completions nel catalogo dei modelli possono essere usati per creare ed eseguire agenti usando il servizio Agent con vari strumenti supportati, con i due requisiti aggiuntivi seguenti:

  1. Creare una Connessione Serverless al progetto usando l'endpoint e la chiave NIM. L'URL di destinazione per l'endpoint NIM nella connessione deve essere https://<endpoint-name>.region.inference.ml.azure.com/v1/.
  2. Impostare il parametro del modello nel corpo della richiesta nella forma di https://<endpoint>.region.inference.ml.azure.com/v1/@<parameter value per table below> durante la creazione e l'esecuzione degli agenti.
NVIDIA NIM model valore del parametro
Llama-3.3-70B-Instruct-NIM-microservice meta/llama-3.3-70b-instruct
Llama-3.1-8B-Instruct-NIM-microservice meta/llama-3.1-8b-instruct
Mistral-7B-Instruct-v0.3-NIM-microservice mistralai/mistral-7b-instruct-v0.3

Analisi della sicurezza

NVIDIA garantisce la sicurezza e l'affidabilità delle immagini dei contenitori NVIDIA NIM tramite l'analisi delle vulnerabilità ottimale, la rigorosa gestione delle patch e i processi trasparenti. Microsoft funziona con NVIDIA per ottenere le patch più recenti delle macchine virtuali per offrire software sicuro, stabile e affidabile di livello di produzione all'interno di Foundry.

È possibile fare riferimento all'ora dell'ultimo aggiornamento per NIM nel riquadro destro della pagina di panoramica del modello. È possibile ridistribuire per usare la versione più recente di NIM da NVIDIA in Foundry.

Paige AI

Modello Attività
Virchow2G Estrazione delle caratteristiche delle immagini
Virchow2G-Mini Estrazione delle caratteristiche delle immagini

Voyage AI

Modello Attività
voyage-3.5-embedding-model Incorporamenti