Uso di GPU serverless in App contenitore di Azure

App contenitore di Azure fornisce l'accesso alle GPU su richiesta senza dover gestire l'infrastruttura sottostante. Come funzionalità serverless, si paga solo per le GPU in uso. Se la funzione è abilitata, il numero di GPU utilizzate per l'app viene aumentato e ridotto per soddisfare le richieste di carico dell'applicazione. Le GPU Serverless consentono di eseguire facilmente i carichi di lavoro con ridimensionamento automatico, avvio a freddo ottimizzato, fatturazione al secondo con riduzione di zero quando non in uso e riduzione del sovraccarico operativo.

Le GPU serverless sono supportate solo per i profili del carico di lavoro a consumo. La funzionalità non è supportata per gli ambienti solo a consumo.

Nota

È necessario richiedere quote GPU per accedere alle GPU. È possibile inviare la richiesta di quote GPU tramite un caso di assistenza clienti.

Vantaggi

Le GPU Serverless accelerano lo sviluppo dell'intelligenza artificiale consentendo di concentrarsi sul codice IA principale e meno sulla gestione dell'infrastruttura quando vengono utilizzate. Questa funzionalità offre un'opzione di livello intermedio tra le API serverless del catalogo dei modelli Foundry e i modelli di hosting in calcolo gestito.

Il supporto delle GPU Serverless di App contenitore offre una governance completa dei dati perché i dati non lasciano mai i limiti del contenitore pur fornendo una piattaforma serverless gestita in cui compilare le applicazioni.

Quando si utilizzano GPU Serverless in App contenitore, le app ottengono:

GPU con riduzione a zero: supporto per il ridimensionamento serverless automatico delle GPU NVIDIA A100 e NVIDIA T4.
Fatturazione al secondo: pagamento solo per l'ambiente di calcolo GPU utilizzato.
Governance dei dati predefinita: i dati non lasciano mai il limite del contenitore.
Opzioni di calcolo flessibili: è possibile scegliere tra i tipi di GPU NVIDIA A100 o T4.
Livello intermedio per lo sviluppo di intelligenza artificiale: è possibile utilizzare un modello personalizzato in una piattaforma di calcolo serverless gestita.

Scenari comuni

Gli scenari seguenti descrivono i casi d'uso comuni per le GPU serverless.

Inferenza in tempo reale e batch: usare modelli open source personalizzati con tempi di avvio rapidi, scalabilità automatica e modello di fatturazione al secondo. Le GPU Serverless sono ideali per le applicazioni dinamiche. Si paga solo per l'ambiente di calcolo utilizzato e le prestazioni delle app vengono aumentate e ridotte automaticamente in base alla domanda.
Scenari di Machine Learning: permettono di velocizzare significativamente le applicazioni che implementano modelli IA personalizzati ottimizzati, Deep Learning, reti neurali o analisi dei dati su larga scala.
High-Performance Computing (HPC): usare GPU come risorse per esigenze di calcolo elevate nelle applicazioni che richiedono calcoli e simulazioni complessi, ad esempio calcolo scientifico, modellazione finanziaria o previsioni meteo.
Rendering e visualizzazione: usare GPU per accelerare il processo di rendering e abilitare la visualizzazione in tempo reale nelle applicazioni che coinvolgono il rendering 3D, l'elaborazione di immagini o la transcodifica video.
Analisi dei Big Data: le GPU possono accelerare l'elaborazione e l'analisi dei dati tra set di dati di grandi dimensioni.

Considerazioni

Tenere presenti gli elementi seguenti quando si usano GPU serverless:

Versione CUDA: le GPU serverless supportano la versione CUDA più recente. Per informazioni dettagliate sulle versioni correnti del driver e del runtime, vedere Stack software GPU.
Limitazioni del supporto:
- Le GPU possono essere utilizzate da un solo contenitore in un'app alla volta. Se sono presenti più contenitori in un'app, il primo contenitore ottiene l'accesso alla GPU.
- Più app possono condividere lo stesso profilo del carico di lavoro GPU, ma ognuna richiede la propria replica.
- Le repliche GPU multiple e frazionarie non sono supportate.
- Il primo contenitore nell'applicazione ottiene l'accesso alla GPU.
Indirizzi IP: le GPU a consumo utilizzano un indirizzo IP per replica durante la configurazione dell'integrazione con la propria rete virtuale.

Stack di software GPU

App contenitore di Azure aggiorna periodicamente lo stack software GPU NVIDIA per incorporare patch di sicurezza, miglioramenti delle prestazioni e nuove funzionalità.

La tabella seguente illustra le versioni del software GPU correnti e future fornite dalla piattaforma:

Componente	Versione corrente	Versione futura
Driver NVIDIA	570	580
Runtime CUDA fornito dalla piattaforma	12.x	13.x

Importante

La piattaforma sta passando alle versioni future elencate in questa tabella. L'implementazione inizia non prima del 23 maggio 2026 e viene completata in diversi giorni man mano che gli aggiornamenti vengono applicati in base all'area geografica. Convalidare l'applicazione rispetto alle versioni future prima che l'aggiornamento sia effettivo. Per indicazioni, vedere Convalidare l'applicazione.

Convalidare l'applicazione

Quando la piattaforma aggiorna lo stack software GPU, è necessario verificare che l'applicazione rimanga compatibile. La procedura da eseguire dipende dal modo in cui l'immagine del contenitore usa CUDA.

Se l'applicazione fornisce il proprio runtime CUDA (ad esempio, usando un'immagine di base CUDA fissata):

Verificare che l'applicazione funzioni con la versione corrente del driver NVIDIA.
Non sono necessarie modifiche all'immagine del contenitore.

Se l'applicazione si basa sul runtime CUDA fornito dalla piattaforma:

Verificare che l'applicazione funzioni con le versioni correnti del driver NVIDIA e del runtime CUDA.
Se l'applicazione non è ancora compatibile con la versione CUDA più recente, aggiungere una versione CUDA precedente nell'immagine del contenitore per mantenere il comportamento precedente.

Criteri di versione

Le versioni del software GPU negli ambienti serverless di App contenitore di Azure seguono questi principi:

Le versioni software GPU sono documentate a livello principale o secondario (ad esempio, CUDA 12.x o CUDA 13.x).
Le versioni patch vengono gestite dalla piattaforma e possono cambiare senza preavviso.
Questa documentazione viene aggiornata quando vengono pianificate o introdotte significative transizioni di versione del software GPU.

Nota

Le informazioni sullo stack di software GPU in questa sezione si applicano solo ai carichi di lavoro GPU serverless. Per i carichi di lavoro GPU dedicati, il sistema operativo, incluso il driver e il runtime CUDA, viene aggiornato automaticamente dalla piattaforma.

Aree supportate

Le GPU serverless sono disponibili nelle aree seguenti:

Area geografica	A100	T4
Australia orientale	Sì	Sì
Brasile meridionale	Sì	Sì
India centrale	NO	Sì
Canada Central	Sì	Sì
East US	Sì	Sì
Francia centrale	NO	Sì
Italia settentrionale	Sì	Sì
Japan East	NO	Sì
Stati Uniti centro-settentrionali	NO	Sì
Stati Uniti centro-meridionali	NO	Sì
Asia sud-orientale	NO	Sì
South India	NO	Sì
Svezia centrale	Sì	Sì
Europa occidentale¹	NO	Sì
Stati Uniti occidentali	Sì	Sì
West US 2 (Regione Ovest degli Stati Uniti 2)	NO	Sì
Stati Uniti occidentali 3	Sì	Sì

¹ Per aggiungere un profilo di carico di lavoro GPU serverless T4 in Europa occidentale, è necessario creare un nuovo ambiente del profilo di carico di lavoro nell'area.

Utilizzare le GPU Serverless

Quando si crea un'app contenitore tramite il portale di Azure, è possibile configurare il contenitore per l'uso delle risorse GPU.

Nella scheda Contenitore del processo di creazione impostare le impostazioni seguenti:

Nella sezione Allocazione risorse contenitore selezionare la casella di controllo GPU .
Per Tipo di GPU selezionare l'opzione NVIDIA A100 o NVIDIA T4.

Gestire il profilo di carico di lavoro GPU Serverless

Le GPU serverless vengono eseguite nei profili di carico di lavoro GPU a consumo. È possibile gestire un profilo di carico di lavoro GPU a consumo analogamente a qualsiasi altro profilo di carico di lavoro. È possibile gestire il profilo del carico di lavoro usando CLI o il portale Azure portale.

Richiedere le quote GPU Serverless

Nota

I clienti con contratti Enterprise e clienti con pagamento in base al consumo hanno la quota A100 e T4 abilitata per impostazione predefinita.

Per accedere a questa funzionalità è necessaria una quota GPU serverless. È possibile inviare la richiesta di quote GPU tramite un caso di assistenza clienti. Quando si apre un caso di supporto per una richiesta di quota GPU, selezionare le opzioni seguenti:

Aprire Nuovo modulo di richiesta di supporto nel portale di Azure.
Immettere i valori seguenti nel formato:

Proprietà Value

Tipo di problema Selezionare Limiti di servizio e sottoscrizione (quote)

Subscription Selezionare la sottoscrizione.

Tipo di quota Selezionare App contenitore.
Seleziona Avanti.
Nella finestra Dettagli aggiuntivi selezionare Immettere i dettagli per aprire la finestra dei dettagli della richiesta.
Per Tipo di quota selezionare Consumo dell'ambiente gestito NCA100 Gpu o Consumo dell'ambiente gestito T4 Gpu. Immettere i tuoi altri valori.
Selezionare Salva e continua.
Compilare il resto dei dettagli pertinenti nella finestra Dettagli aggiuntivi .
Seleziona Avanti.
Fare clic su Crea.

Proprietà	Value
Tipo di problema	Selezionare Limiti di servizio e sottoscrizione (quote)
Subscription	Selezionare la sottoscrizione.
Tipo di quota	Selezionare App contenitore.

Migliorare l'avvio a freddo delle GPU

È possibile migliorare significativamente i tempi di avvio a freddo abilitando lo streaming degli artefatti e individuando file di grandi dimensioni, ad esempio modelli linguistici di grandi dimensioni, in un montaggio di archiviazione.

Artifact streaming: Registro Azure Container offre flussi di immagini, che possono velocizzare notevolmente i tempi di avvio delle immagini. Per usare lo streaming degli artefatti, è necessario ospitare le immagini del contenitore in un Registro Azure Container Premium.
Storage mounts: Ridurre gli effetti della latenza di rete archiviando file di grandi dimensioni in un account di archiviazione di Azure associato all'app contenitore.

Distribuire modelli Foundry su GPU Serverless (anteprima)

GPU serverless delle app contenitore di Azure ora supportano i modelli Microsoft Foundry in anteprima pubblica. I modelli foundry hanno due opzioni di distribuzione:

API serverless che forniscono la fatturazione con pagamento in base al consumo per alcuni dei modelli più diffusi.
Calcolo gestito che consente di distribuire la selezione completa dei modelli Foundry con prezzi con pagamento in base alla GPU.

App contenitore di Azure GPU serverless offre un'opzione di distribuzione bilanciata tra le API serverless e il calcolo gestito per la distribuzione dei modelli Foundry. Questa opzione è disponibile su richiesta con una scalabilità serverless che si riduce fino a zero quando non è in uso ed è conforme alle esigenze di gestione della residenza dei dati. Grazie alle GPU serverless, l'uso dei modelli Foundry consente di eseguire qualsiasi modello supportato con scalabilità automatica, prezzi a pagamento al secondo, governance completa dei dati e supporto immediato per la rete aziendale e la sicurezza.

Sono supportati i modelli linguistici del tipo MLFLOW . Per visualizzare un elenco di MLFLOW modelli, passare all'elenco dei modelli disponibili nel registro azureml. Per individuare i modelli, aggiungere un filtro per MLFLOW i modelli seguendo questa procedura:

Selezionare Filtro.
Selezionare Aggiungi filtro.
Per la regola di filtro immettere Type = MLFLOW.

Per i modelli elencati qui nel repository App contenitore di Azure, è possibile distribuirli direttamente in GPU serverless senza dover compilare un'immagine personalizzata usando il comando dell'interfaccia della riga di comando seguente:

az containerapp up \
  --name <CONTAINER_APP_NAME> \
  --location <LOCATION> \
  --resource-group <RESOURCE_GROUP_NAME> \
  --model-registry <MODEL_REGISTRY_NAME> \
  --model-name <MODEL_NAME> \
  --model-version <MODEL_VERSION>

Per qualsiasi modello non incluso nell'elenco, è necessario:

Scaricare il modello di GitHub per l'immagine del modello dal repository di App contenitore di Azure.
Modificare il file score.py in modo che corrisponda al tipo di modello. Lo script di assegnazione dei punteggi (denominato score.py) definisce la modalità di interazione con il modello. Nell'esempio seguente viene illustrato come usare un file di score.py personalizzato.
Compilare l'immagine e distribuirla in un registro di contenitori.
Utilizzare il comando precedente dell'interfaccia della riga di comando per distribuire il modello su GPU Serverless, ma specificare --image. Quando si usano i parametri --model-registry, --model-name e --model-version, le variabili di ambiente chiave vengono impostate per ottimizzare l'avvio a freddo per la tua app.

Inviare commenti e suggerimenti

Inviare problemi al repository App contenitore di Azure GitHub.

Passaggi successivi

Generare immagini con le GPU Serverless

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-05-02

Uso di GPU serverless in App contenitore di Azure

Vantaggi

Scenari comuni

Considerazioni

Stack di software GPU

Convalidare l'applicazione

Criteri di versione

Aree supportate

Utilizzare le GPU Serverless

Gestire il profilo di carico di lavoro GPU Serverless

Richiedere le quote GPU Serverless

Migliorare l'avvio a freddo delle GPU

Distribuire modelli Foundry su GPU Serverless (anteprima)

Inviare commenti e suggerimenti

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive