Partizionamento GPU

Il partizionamento GPU consente di condividere un dispositivo GPU fisico con più macchine virtuali. Con il partizionamento o la virtualizzazione della GPU, ogni macchina virtuale ottiene una frazione dedicata della GPU anziché l'intera GPU.

La funzionalità di partizionamento GPU usa l'interfaccia SR-IOV (Single Root IO Virtualization), che fornisce un limite di sicurezza supportato da hardware con prestazioni prevedibili per ogni macchina virtuale. Ogni macchina virtuale può accedere solo alle risorse GPU a essa dedicate e il partizionamento hardware sicuro impedisce l'accesso non autorizzato da altre macchine virtuali.

A partire da Windows Server 2025, la migrazione in tempo reale è supportata con il partizionamento GPU, consentendo una maggiore flessibilità per la gestione delle macchine virtuali. Per usare la migrazione in tempo reale con il partizionamento GPU, assicurarsi che la configurazione soddisfi i requisiti descritti in questo articolo. La migrazione in tempo reale consente di spostare macchine virtuali tra host senza tempi di inattività, essenziali per la manutenzione e il bilanciamento del carico in un ambiente di produzione.

Questa funzionalità consente migrazioni di macchine virtuali pianificate mantenendo l'allocazione delle risorse GPU, garantendo tempi di inattività minimi e prestazioni coerenti.

Il partizionamento della GPU è progettato per i server autonomi. È possibile eseguire la migrazione in tempo reale di macchine virtuali tra nodi autonomi per tempi di inattività pianificati; Tuttavia, per i clienti che richiedono il clustering per tempi di inattività non pianificati, è necessario usare Windows Server 2025 Datacenter.

Quando usare il partizionamento GPU

Alcuni carichi di lavoro, ad esempio l'infrastruttura di desktop virtuale (VDI), l'intelligenza artificiale (IA) e l'inferenza di Machine Learning (ML) richiedono l'accelerazione GPU, il partizionamento gpu può contribuire a ridurre il costo totale di proprietà per l'infrastruttura complessiva.

Per esempio:

  • Applicazioni VDI: i clienti edge distribuiti eseguono applicazioni di produttività di base, come Microsoft Office, e carichi di lavoro di visualizzazione pesanti nei propri ambienti VDI, che richiedono l'accelerazione GPU. Per questi carichi di lavoro, è possibile ottenere l'accelerazione GPU necessaria tramite il partizionamento DDA o GPU. Con il partizionamento GPU è possibile creare più partizioni e assegnare ogni partizione a una macchina virtuale che ospita un ambiente VDI. Il partizionamento GPU consente di ottenere la densità desiderata e di ridimensionare il numero di utenti supportati in base a un ordine di grandezza.

  • Inferenza con Machine Learning: i clienti nei punti vendita al dettaglio e negli stabilimenti di produzione possono eseguire l'inferenza a livello perimetrale, che richiede il supporto GPU per i server. Usando la GPU nei server, è possibile eseguire modelli di Machine Learning per ottenere risultati rapidi su cui è possibile agire prima che i dati vengano inviati al cloud. Il set di dati completo può essere facoltativamente trasferito per continuare a ripetere il training dei modelli di Machine Learning e migliorarli. Oltre a DDA, in cui si dedica un'intera GPU fisica a una macchina virtuale, il partizionamento GPU consente di eseguire più applicazioni di inferenza contemporaneamente sulla stessa GPU, ma in partizioni hardware separate, ottimizzando l'utilizzo della GPU.

Requirements

Per usare il partizionamento GPU con la migrazione in tempo reale, è necessario avere una CPU, un sistema operativo e una GPU supportati. Le sezioni seguenti descrivono i requisiti.

Requisiti della CPU

Gli host del cluster devono essere dotati di processori capaci di rilevare i bit DMA tramite l'unità di gestione della memoria input/output (IOMMU). Ad esempio, i processori che supportano Intel VT-D o AMD-Vi. Se si usano Windows Server e la migrazione in tempo reale senza processori abilitati per IOMMU, le macchine virtuali vengono riavviate automaticamente in cui sono disponibili risorse GPU.

Esempi di processori che supportano il rilevamento bit DMA di IOMMU per la migrazione in tempo reale con il partizionamento GPU includono:

  • AMD EPYC 7003 e versioni successive (Milano)
  • 4a generazione Intel Xeon SP (Zaffiro Rapids)

I processori AMD EPYC 7002 (Roma) supportano il partizionamento GPU, ma non supportano la migrazione in tempo reale con il partizionamento GPU.

Sistemi operativi guest supportati

Il partizionamento GPU in Windows Server 2025 e versioni successive supporta questi sistemi operativi guest:

  • Windows 10 o versioni successive
  • Windows 10 Enterprise multisessione o versione successiva
  • Windows Server 2019 o versioni successive
  • Linux Ubuntu 18.04 LTS, Linux Ubuntu 20.04 LTS, Linux Ubuntu 22.04 LTS

GPU supportate

Le GPU seguenti supportano il partizionamento GPU:

  • NVIDIA A2
  • NVIDIA A10
  • NVIDIA A16
  • NVIDIA A40
  • NVIDIA L2
  • NVIDIA L4
  • NVIDIA L40
  • NVIDIA L40S
  • NVIDIA RTX Pro 6000 Blackwell Server Edition
  • AMD Radeon PRO V710

Per usare la migrazione in tempo reale con il partizionamento GPU per GPU NVIDIA, è necessario usare il driver incluso nel software NVIDIA vGPU v18.x o versione successiva. Il driver NVIDIA fornisce il supporto necessario per il partizionamento gpu e le funzionalità di migrazione in tempo reale.

È consigliabile collaborare con i partner OEM (Original Equipment Manufacturer) per pianificare e ordinare i sistemi personalizzati per i carichi di lavoro. Consultare anche i fornitori di hardware indipendenti dalla GPU (IHD) per assicurarsi di disporre delle configurazioni appropriate e del software necessario per la configurazione. Tuttavia, supportiamo altre GPU se si vuole usare l'accelerazione GPU tramite DDA (Discrete Device Assignment). Contattare i partner OEM e i fornitori di hardware indipendenti per ottenere un elenco delle GPU che supportano DDA. Per altre informazioni sull'uso dell'accelerazione GPU tramite DDA, vedere Discrete Device Assignment (DDA).

Per ottenere prestazioni ottimali, è consigliabile creare una configurazione omogenea per le GPU in tutti i server del cluster. Una configurazione omogenea consiste nell'installare GPU di marca e modello identici e nel configurare lo stesso numero di partizioni nelle GPU in tutti i server del cluster. Ad esempio, in un cluster di due server con una o più GPU installate, tutte le GPU devono essere di marca, modello e dimensioni identici. Anche il numero di partizioni in ogni GPU deve corrispondere.

Limitations

Quando si usa la funzionalità di partizionamento GPU, considerare le limitazioni seguenti:

  • Il partizionamento GPU non è supportato se la configurazione non è omogenea. Di seguito sono riportati alcuni esempi di configurazioni non supportate:

    • Combinazione di GPU di fornitori diversi nello stesso cluster.

    • Uso di modelli di GPU diversi di famiglie di prodotti diverse dello stesso fornitore nello stesso cluster.

  • Non è possibile assegnare una GPU fisica sia come Discrete Device Assignment (DDA) sia come GPU partizionabile. È possibile assegnarla come DDA o come GPU partizionabile, ma non come tutte e due.

  • Se si assegnano più partizioni GPU a una macchina virtuale, ogni partizione viene visualizzata come un'altra GPU.

  • Le partizioni vengono assegnate automaticamente alle VM. Non è possibile scegliere una partizione specifica per una macchina virtuale specifica.

  • È possibile partizionare la GPU usando Windows Admin Center o PowerShell. È consigliabile usare Windows Admin Center per configurare e assegnare partizioni GPU. Windows Admin Center convalida automaticamente per una configurazione omogenea delle GPU in tutti i server del cluster. Fornisce avvisi ed errori appropriati per eseguire le azioni correttive necessarie.

  • Se si usa PowerShell per abilitare il partizionamento GPU, è necessario eseguire gli stessi passaggi di configurazione in ogni server del cluster. È necessario assicurarsi manualmente che la configurazione omogenea venga mantenuta per le GPU in tutti i server del cluster.

  • Quando si esegue la migrazione in tempo reale di una macchina virtuale con una partizione GPU assegnata, Hyper-V passa automaticamente a utilizzare TCP/IP con compressione. La migrazione di una macchina virtuale ha come effetto potenziale l'aumento dell'uso della CPU di un host. Inoltre, le migrazioni in tempo reale potrebbero richiedere più tempo rispetto alle macchine virtuali senza partizioni GPU collegate.

Per altre informazioni sull'uso di GPU con le macchine virtuali e il partizionamento GPU, vedere: