Condividi tramite


Limiti e aree di disponibilità di Model Serving

Questo articolo riepiloga le limitazioni e la disponibilità dell'area per la gestione del modello di Azure Databricks e i tipi di endpoint supportati.

Limiti delle risorse e del carico utile

Model Serving impone limiti predefiniti per garantire prestazioni affidabili. Se hai commenti o suggerimenti su questi limiti, contatta il team del tuo account Databricks.

I limiti in questa sezione si applicano solo agli endpoint dell'agente di intelligenza artificiale e del modello personalizzato. Per le API del modello di base e i limiti di risorse e payload del modello esterno, vedere Limiti e quote delle API del modello di base.

Modelli personalizzati e agenti di intelligenza artificiale

Funzionalità Granularità Limite
Endpoints Per area di lavoro 1000. Contattare il team del tuo account Databricks per aumentare il limite.
Query al secondo (QPS) Per terminale 300.000 utilizzando l'ottimizzazione del percorso. Se la concorrenza di 1024 non è sufficiente, contattate il team del vostro account Databricks per un aumento.
Query al secondo (QPS) Per area di lavoro 300.000 tramite l'ottimizzazione del percorso. 200 per non ottimizzato per l'instradamento, consigliato solo per piccoli casi d'uso rivolti a sviluppatori.
Concorrenza provisionata Per modello 1024 con opzione personalizzata e ottimizzazione della route. Rivolgetevi al team dell'account Databricks per aumentare.
Concorrenza provisionata Per area di lavoro 4096. Contattare il team dell'account Databricks per aumentare.
Operazioni di creazione/aggiornamento Per area di lavoro 50 in 5 minuti.
Dimensioni del carico utile Per richiesta 16 MB. Per gli endpoint dell'agente di intelligenza artificiale il limite è 4 MB.
Dimensione della richiesta e della risposta Per richiesta Qualsiasi richiesta/risposta su 1 MB non verrà registrata.
Durata dell'esecuzione del modello Per richiesta 297 secondi
Utilizzo della memoria della CPU del modello di endpoint Per terminale 4 GB
Utilizzo della memoria del modello endpoint GPU Per terminale Dipende dal tipo di GPU
Variabili di ambiente Per modello servito 30. Contattare il team dell'account Databricks per aumentare.
Latenza di overhead Per richiesta Meno di 20 millisecondi con l'ottimizzazione del percorso.

:::

Limitazioni di rete e sicurezza

  • Gli endpoint di gestione dei modelli sono protetti dal controllo di accesso e rispettano le regole di ingresso correlate alla rete configurate nell'area di lavoro, ad esempio gli elenchi di indirizzi IP consentiti e il collegamento privato.
  • La connettività privata (come il Collegamento Privato di Azure) è supportata solo per gli endpoint di servizio del modello che utilizzano la larghezza di banda effettiva fornita o gli endpoint che gestiscono modelli personalizzati.
  • Per impostazione predefinita, Model Serving non supporta collegamento privato agli endpoint esterni (ad esempio Azure OpenAI). Il supporto per questa funzionalità viene valutato e implementato in base all'area. Per maggiori informazioni, contattare il team dell'account Azure Databricks.
  • Model Serving non fornisce patch di sicurezza alle immagini del modello esistenti a causa del rischio di destabilizzazione nelle implementazioni di produzione. A contenere le patch più recenti sarà una nuova immagine del modello creata da una nuova versione. Per maggiori informazioni, contattare il team responsabile dell'account Databricks.

Standard del profilo di sicurezza della conformità: carichi di lavoro della CPU

La tabella seguente elenca gli standard di conformità dei profili di sicurezza supportati per la funzionalità di gestione dei modelli di base nei carichi di lavoro della CPU.

Nota

Questi standard di conformità richiedono che i contenitori distribuiti siano costruiti negli ultimi 30 giorni. Databricks ricompila automaticamente i contenitori obsoleti per conto dell'utente. Tuttavia, se questo processo automatizzato ha esito negativo, viene visualizzato un messaggio del registro eventi simile al seguente e fornisce indicazioni su come garantire che gli endpoint rimangano entro i requisiti di conformità:

"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."

Area geografica Posizione HIPAA HITRUST PCI-DSS IRAP (Imposta Regionale sulle Attività Produttive) CCCS Medio (Protetto B) Cyber Essentials Plus Regno Unito
australiacentral Australiacentrale            
australiacentral2 AustraliaCentral2            
australiaeast Australiaorientale      
australiasoutheast Australia Sud-Est            
brazilsouth Brasile Sud      
canadacentral CanadaCentral      
canadaeast Canadaorientale            
centralindia CentralIndia      
centralus Regione Centrale USA      
chinaeast2 Cina orientale 2            
chinaeast3 Cina orientale 3            
chinanorth2 ChinaNorth2            
chinanorth3 ChinaNorth3            
eastasia EastAsia      
eastus Stati Uniti Est      
eastus2 EastUS2      
francecentral FranceCentral      
germanywestcentral Germania Centro-Ovest      
japaneast GiapponeEast      
japanwest GiapponeWest            
koreacentral KoreaCentral      
mexicocentral MessicoCentral            
northcentralus NorthCentralUS      
northeurope NordEurope      
norwayeast NorvegiaEst            
qatarcentral QatarCentral            
southafricanorth SudAfricaNord            
southcentralus SouthCentralUS      
southeastasia Sud-est asiatico      
southindia India del Sud            
swedencentral SveziaCentral      
switzerlandnorth SvizzeraNord      
switzerlandwest Svizzera Occidentale            
uaenorth UAENord      
uksouth UkSouth    
ukwest UKWest            
westcentralus WestCentralUS            
westeurope Europa occidentale      
westindia WestIndia            
westus WestUS      
westus2 WestUS2      
westus3 WestUS3      

Limiti delle API dei modelli di base

Per informazioni dettagliate sulle API del modello di base, inclusi i limiti delle risorse e del payload per i modelli di base e esterni, vedere Limiti e quote della frequenza delle API del modello di base.

Disponibilità a livello di area

Nota

Se si necessita di un endpoint in un'area non supportata, contattare il team dell'account Azure Databricks.

Se l'area di lavoro viene distribuita in un'area che supporta la gestione del modello ma viene gestita da un piano di controllo in un'area non supportata, l'area di lavoro non supporta la gestione del modello. Se si tenta di usare la gestione del modello in un'area di lavoro di questo tipo, verrà visualizzato un messaggio di errore che informa che l'area di lavoro non è supportata. Per maggiori informazioni, contattare il team dell'account Azure Databricks.

Per altre informazioni sulla disponibilità a livello di area di ogni funzionalità di gestione dei modelli, vedere Disponibilità delle funzionalità di gestione dei modelli.

Per la disponibilità dell'area del modello di base ospitata da Databricks, vedere Modelli di base ospitati in Databricks.