Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Importante
Il runtime di intelligenza artificiale per le attività a nodo singolo è disponibile in anteprima pubblica. L'API di training distribuita per i carichi di lavoro con più GPU rimane in beta.
Panoramica del runtime di intelligenza artificiale
Il runtime di intelligenza artificiale è un'offerta di calcolo di Databricks destinata ai carichi di lavoro di Deep Learning e offre il supporto GPU per Databricks Serverless. È possibile usare il runtime di intelligenza artificiale per eseguire il training e ottimizzare i modelli personalizzati usando i framework preferiti e ottenere efficienza, prestazioni e qualità all'avanguardia. Per una panoramica del modo in cui il calcolo serverless rientra nell'architettura di Databricks, vedere Architettura dell'area di lavoro serverless.
Funzionalità principali
- Infrastruttura GPU completamente gestita : accesso serverless, flessibile alle GPU e nessuna configurazione del cluster, selezione dei driver o criteri di scalabilità automatica da gestire.
- Un runtime dedicato per l'apprendimento profondo — scegli un ambiente di base predefinito minimo per la massima flessibilità rispetto alle dipendenze oppure un ambiente AI completo, precaricato con i framework di machine learning più diffusi.
- Integrato in modo nativo tra notebook, processi, catalogo Unity e MLflow per lo sviluppo, l'accesso ai dati e il rilevamento degli esperimenti senza problemi.
Opzioni hardware
| Acceleratore | Ideale per | Multi-GPU |
|---|---|---|
| A10 | Attività ML di piccole e medie dimensioni, ad esempio modelli ML classici o il perfezionamento di modelli linguistici più piccoli | No |
| H100 | Carichi di lavoro di intelligenza artificiale su larga scala, inclusi il training o l'ottimizzazione di modelli di grandi dimensioni o l'esecuzione di attività avanzate di Deep Learning | Sì (8 GPU) |
Casi d'uso consigliati
Databricks consiglia AI Runtime per qualsiasi caso di utilizzo relativo al training di modelli personalizzati che coinvolgono deep learning, carichi di lavoro classici di larga scala o che utilizzano GPU.
Per esempio:
- Ottimizzazione LLM (LoRA, QLoRA, ottimizzazione completa)
- Visione artificiale (rilevamento degli oggetti, classificazione delle immagini)
- Sistemi di raccomandazione basati su Deep Learning
- Apprendimento per rinforzo
- Previsione di serie temporali basate su Deep Learning
Requisiti
- Un'area di lavoro in una delle aree supportate da Azure seguenti:
centraluseastuseastus2northcentraluswestcentraluswestuswestus3
Limitazioni
- Il runtime di intelligenza artificiale supporta solo acceleratori A10 e H100.
- Il runtime di intelligenza artificiale non è supportato per le aree di lavoro del profilo di sicurezza della conformità( ad esempio HIPAA o PCI). L'elaborazione dei dati regolamentati non è supportata.
- L'aggiunta di dipendenze tramite il pannello Ambienti non è supportata per i processi pianificati del runtime di intelligenza artificiale. Installare le dipendenze tramite codice usando
%pip installinvece nel notebook. - Per i processi pianificati in runtime di intelligenza artificiale, il comportamento di ripristino automatico per le versioni di pacchetti incompatibili associate al notebook non è supportato.
- Il runtime massimo per un carico di lavoro è di sette giorni. Per i processi di training del modello che superano questo limite, implementare i punti di controllo e riavviare il processo quando si raggiunge il tempo massimo di esecuzione.
- Il runtime di intelligenza artificiale fornisce l'accesso su richiesta alle risorse GPU. Anche se ciò comporta un accesso semplice e flessibile alle GPU, potrebbero verificarsi periodi in cui la capacità è vincolata o non disponibile nell'area.
- Il runtime di intelligenza artificiale sfrutta le GPU tra aree in determinati casi durante i momenti di elevata domanda. Potrebbero esserci costi in uscita associati a tale utilizzo.
Connettersi al runtime di intelligenza artificiale
È possibile connettersi al runtime di intelligenza artificiale in modo interattivo da notebook, pianificare notebook come processi ricorrenti o creare processi a livello di codice usando l'API Processi e i bundle di asset di Databricks. Per istruzioni dettagliate, vedere Connettersi al runtime di intelligenza artificiale.
Set up environment (Configurare l'ambiente)
Il runtime di intelligenza artificiale offre due ambienti Python gestiti: un ambiente di base predefinito minimo e un ambiente di intelligenza artificiale di Databricks completo precaricato con framework di Machine Learning comuni come PyTorch e Transformers. Per informazioni dettagliate sulla scelta di un ambiente, il comportamento di memorizzazione nella cache, l'importazione di moduli personalizzati e le limitazioni note, vedere Configurare l'ambiente.
Leggere i dati
Comprendere il funzionamento dell'accesso ai dati in Ai Runtime è essenziale per un'esperienza uniforme. Per informazioni dettagliate, vedere Caricare i dati nel runtime di intelligenza artificiale.
Training distribuito
Importante
Questa funzionalità è in versione beta. Gli amministratori dell'area di lavoro possono controllare l'accesso a questa funzionalità dalla pagina Anteprime . Vedere Gestire le anteprime di Azure Databricks.
Il runtime di intelligenza artificiale supporta il training distribuito tra più GPU nel singolo nodo a cui è connesso il notebook. Usando l'elemento @distributed decorator dell'API serverless_gpu Python (Beta), è possibile avviare carichi di lavoro multi-GPU con PyTorch DDP, FSDP o DeepSpeed con una configurazione minima. Per informazioni dettagliate, vedere Carico di lavoro multi-GPU.
Rilevamento e osservabilità dell'esperimento
Per l'integrazione di MLflow, la visualizzazione dei log e la gestione dei checkpoint del modello, vedere Rilevamento e osservabilità degli esperimenti.
Codice Genie per l'apprendimento avanzato
Genie Code supporta carichi di lavoro di Deep Learning nel runtime di intelligenza artificiale. Può essere utile per generare codice di training, risolvere gli errori di installazione della libreria, suggerire ottimizzazioni e eseguire il debug di problemi comuni. Vedere Usare il codice Genie per l'analisi scientifica dei dati.
Guide
Per la migrazione da carichi di lavoro classici, notebook di esempio e risoluzione dei problemi, vedere Guide utente per il runtime di intelligenza artificiale.