Training distribuito su più GPU

Importante

Questa funzionalità è in versione beta. Gli amministratori dell'area di lavoro possono controllare l'accesso a questa funzionalità dalla pagina Anteprime . Vedere Gestire le anteprime di Azure Databricks.

Questa pagina include esempi di notebook per il training distribuito su più GPU usando il runtime di intelligenza artificiale. Questi esempi illustrano come ridimensionare il training tra più GPU e nodi per migliorare le prestazioni.

Annotazioni

Il training distribuito su più GPU è supportato nelle GPU H100.

Scegliere la tecnica di parallelismo

Quando si ridimensiona l'addestramento del modello tra più GPU, la scelta della tecnica di parallelismo appropriata dipende dalle dimensioni del modello, dalla memoria GPU disponibile e dai requisiti di prestazione.

Tecnica	Quando utilizzare
DDP (parallelismo dei dati distribuiti)	Il modello completo si adatta a una singola memoria GPU; è necessario ridimensionare la velocità effettiva dei dati
FSDP (parallela dei dati completamente suddivisi)	Modelli molto grandi che non rientrano nella memoria singola GPU
DeepSpeed ZeRO	Modelli di grandi dimensioni con esigenze avanzate di ottimizzazione della memoria

Per informazioni dettagliate su ogni tecnica, vedere DDP, FSDP e DeepSpeed.

Esempi di notebook per metodi e framework

La tabella seguente organizza i notebook di esempio in base al framework o alla libreria in uso e la tecnica di parallelismo applicata. Più notebook (file di lavoro) possono essere visualizzati in una singola cella.

Framework/Library	Esempi di DDP	Esempi di FSDP	Esempi di DeepSpeed
PyTorch (nativo)	Rete neurale MLP semplice Rilevamento delle immagini RetinaNet	Trasformatore di parametri 10M	-
Huggingface TRL	Ottimizzare Gpt OSS 20B	Ottimizzare Gpt OSS 120B	Ottimizzare Llama 3.2 1B
Annullamento dell'annullamento	Ottimizzare finemente Llama 3.2 3B	-	-
Axolotl	Perfezionare Olmo3 7B	-	-
Mosaico LLM Foundry	Perfezionare Llama 3.2 8B	-	-
Fulmine	Sistema di raccomandazione a due torre	-	-

Inizia subito

Utilizza le seguenti esercitazioni per cominciare a utilizzare la libreria Python GPU senza server per l'addestramento distribuito.

Tutoriale	Descrizione
Runtime di intelligenza artificiale con GPU H100	Informazioni su come usare Il runtime di intelligenza artificiale di Databricks con acceleratori H100 per eseguire carichi di lavoro GPU distribuiti usando la libreria Python serverless_gpu.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-30