Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Quando si distribuisce un modello in Microsoft Foundry, si sceglie un tipo di distribuzione che determina:
- Posizione in cui vengono elaborati i dati (globale, zona dati o singola area)
- Modalità di pagamento (pagamento per token o capacità riservata)
- Caratteristiche delle prestazioni (varianza della latenza, limiti di velocità effettiva)
Il servizio offre due categorie principali: standard (con pagamento per token) e provisioning (capacità riservata). All'interno di ogni categoria è possibile scegliere l'elaborazione globale, della zona dati o dell'area in base ai requisiti di conformità.
Importante
Residenza dei dati per tutti i tipi di distribuzione: i dati archiviati inattivi rimangono nell'area geografica Azure designata. Tuttavia, l'elaborazione dei dati a fini inferenziali viene eseguita come segue:
- tipi di Global: possono essere elaborati in qualsiasi area Azure
- tipi DataZone: elaborati solo all'interno della zona dati specificata Microsoft (Stati Uniti o UE)
- Tipi standard/internazionali : elaborati nell'area di distribuzione
Confronto tra tipi di distribuzione
| Tipo di distribuzione | Codice SKU | Elaborazione dei dati | Fatturazione | Migliore per |
|---|---|---|---|---|
| Standard globale | GlobalStandard |
Qualsiasi regione Azure | Pagamento in base al token | Carichi di lavoro generali, quota più elevata |
| Configurazione Globale | GlobalProvisionedManaged |
Qualsiasi regione Azure | PTU riservato | Elevata larghezza di banda prevedibile |
| Batch globale | GlobalBatch |
Qualsiasi regione Azure | 50% sconto, 24 ore | Attività asincrone di grandi dimensioni |
| Zona Dati Standard | DataZoneStandard |
All'interno dell'area dati | Pagamento in base al token | Conformità dell'area dati UE/Stati Uniti |
| Area dati configurata | DataZoneProvisionedManaged |
All'interno dell'area dati | PTU riservato | Zona dati e velocità effettiva prevedibile |
| Batch della Data Zone | DataZoneBatch |
All'interno dell'area dati | 50% sconto | Processi asincroni di grandi dimensioni con zona dati |
| Standard | Standard |
Regione singola | Pagamento in base al token | Conformità regionale, volume basso |
| Provisionamento regionale | ProvisionedManaged |
Regione singola | PTU riservato | Conformità regionale e capacità di trasmissione |
| Sviluppatore | DeveloperTier |
Qualsiasi regione Azure | Pagamento in base al token | Solo valutazione del modello riparametrizzato |
Nota
Non tutti i modelli supportano tutti i tipi di distribuzione. Controllare Foundry Models venduto direttamente da Azure per la disponibilità del modello in base al tipo di distribuzione e all'area.
Nota
Le garanzie del contratto di servizio variano in base al tipo di distribuzione. I tipi di cui è stato effettuato il provisioning offrono una velocità effettiva garantita e una varianza di latenza inferiore. I tipi standard offrono un servizio al meglio delle possibilità. Le distribuzioni degli sviluppatori non includono un contratto di servizio. Per informazioni dettagliate, vedere il contratto di servizio Azure per Servizio Azure OpenAI.
Suggerimento
Per informazioni dettagliate sui prezzi, vedere Servizio Azure OpenAI prezzi.
Scegliere il tipo di distribuzione corretto
Usare i criteri seguenti per selezionare un tipo di distribuzione:
In base ai requisiti di residenza dei dati
- Nessuna restrizione: Usare il Global Standard o il Global Provisioned
- Area dati UE: usare DataZone Standard o DataZone Preconfigurato in un'area dell'UE
- DataZone degli Stati Uniti: usare DataZone Standard o DataZone Provisioned in una regione degli Stati Uniti
- Solo area singola: usare provisioning standard o a livello di area
In base al modello di carico di lavoro
- Variabile, traffico bursty: usare Standard o Standard globale (con pagamento in base al token)
- Volume coerente elevato: utilizzare tipi provisionati (capacità riservata)
- Processi batch di grandi dimensioni (non sensibili al tempo): usare Batch globale o Batch DataZone (50% risparmio sui costi)
- Valutazione del modello ottimizzata: usare lo Sviluppatore (nessun contratto di servizio, costo più basso)
Per requisito di latenza
- Richiesta bassa varianza di latenza: usare tipi provisionati
- Varianza di latenza accettabile: usare i tipi Standard
Luoghi di elaborazione dati
Per le distribuzioni standard, sono disponibili tre opzioni: globale, zona dati e area geografica Azure. Per le distribuzioni con provisioning, sono disponibili due opzioni: globale e Azure geography. Global Standard è un punto di partenza comune per la maggior parte dei carichi di lavoro.
Distribuzioni globali
Le distribuzioni globali usano l'infrastruttura globale di Azure per instradare dinamicamente il traffico ai data center disponibili. Le distribuzioni globali offrono i limiti di velocità effettiva iniziali più elevati e la disponibilità più ampia del modello.
Per i carichi di lavoro con volumi elevati, è possibile che si verifichi un aumento della latenza. Se è necessaria una varianza di latenza inferiore su larga scala, usare i tipi di distribuzione di cui è stato effettuato il provisioning.
Le distribuzioni globali ricevono innanzitutto i nuovi modelli e le funzionalità.
Implementazioni della Zona Dati
Per i tipi di distribuzione globale , le richieste e le risposte potrebbero essere elaborate in qualsiasi area geografica in cui viene distribuito il modello. Per i tipi di distribuzione DataZone , le richieste e le risposte vengono elaborate solo all'interno dell'area dati specificata:
- Stati Uniti: dati elaborati ovunque negli Stati Uniti
- Unione europea: dati elaborati all'interno di qualsiasi nazione membro dell'UE
Per altre informazioni, vedere la sezione "Disponibilità dell'area del modello per tipo di distribuzione" di Modeloli diFoundry venduti direttamente da Azure.
Nota
Con i tipi di distribuzione Standard Globale e Standard Zona Dati, se la regione primaria subisce un'interruzione del servizio, tutto il traffico che era inizialmente indirizzato a questa regione è interessato. Per altre informazioni, vedere la guida alla disponibilità elevata e al ripristino di emergenza.
Standard globale
- Nome SKU nel codice:
GlobalStandard
Le distribuzioni Standard globali usano l'infrastruttura globale di Azure per instradare dinamicamente il traffico ai data center disponibili. Questo tipo di distribuzione fornisce la quota predefinita più elevata ed elimina la necessità di bilanciare il carico tra più risorse.
I clienti con un volume coerente elevato potrebbero riscontrare una maggiore variabilità di latenza. La soglia viene impostata per modello. Per ulteriori informazioni, vedere la pagina Quotas. Per le applicazioni che richiedono una variazione della latenza inferiore a un elevato utilizzo del carico di lavoro, prendere in considerazione il throughput predefinito.
Global Standard supporta l'elaborazione prioritaria (anteprima) per tempi di risposta più rapidi a consumo. Per altre informazioni, vedere Elaborazione prioritaria per i modelli Foundry (anteprima).
Fornito globalmente
- Nome SKU nel codice:
GlobalProvisionedManaged
Le distribuzioni con provisioning globale usano l'infrastruttura globale di Azure per instradare dinamicamente il traffico ai data center disponibili. Questo tipo di distribuzione offre capacità riservata di elaborazione dei modelli per un throughput prevedibile, combinando il routing globale con la capacità garantita.
Con il throughput con provisioning, si acquista un numero fisso di unità di throughput con provisioning (PTU) che garantiscono un livello specifico di capacità di elaborazione. Questo tipo di distribuzione offre una latenza più bassa e coerente rispetto a Global Standard. Per altre informazioni, vedere Concetti relativi alla velocità effettiva con provisioning.
Batch globale
- Nome SKU nel codice:
GlobalBatch
Global Batch gestisce attività di elaborazione su larga scala e con volumi elevati. È possibile elaborare gruppi asincroni di richieste con quota separata e un obiettivo di elaborazione di 24 ore, a costo inferiore del 50% rispetto a Global Standard. Con l'elaborazione batch, anziché inviare una richiesta alla volta, si invia un numero elevato di richieste in un singolo file. Le richieste di Batch globali hanno una quota di token accodata separata, che consente di evitare interruzioni dei carichi di lavoro online.
Casi d'uso comuni:
- Elaborazione dei dati su larga scala: analizzare i set di dati in parallelo.
- Generazione di contenuto: creare volumi elevati di testo, ad esempio descrizioni di prodotti o articoli.
- Revisione e riepilogo dei documenti: elaborare e riepilogare documenti lunghi.
- Automazione del supporto tecnico: gestire contemporaneamente numerose query.
- Estrazione e analisi dei dati: estrarre e analizzare informazioni da grandi quantità di dati non strutturati.
- Attività di elaborazione del linguaggio naturale (NLP): Eseguire analisi del sentiment o traduzione su set di dati di grandi dimensioni.
Nota
Le distribuzioni batch sacrificano la reattività in tempo reale per ottenere risparmi sui costi. Le richieste batch non hanno un contratto di servizio in tempo reale. Il completamento è previsto entro 24 ore, ma potrebbe richiedere più tempo.
Zona Dati Standard
- Nome SKU nel codice:
DataZoneStandard
Le distribuzioni standard del Data Zone instradano dinamicamente il traffico ai data center all'interno della zona dati definita da Microsoft (USA o EU). Questo tipo di distribuzione fornisce quote predefinite superiori rispetto ai tipi di distribuzione basati su geografia mantenendo i dati all'interno della zona specificata.
I clienti con un volume coerente elevato potrebbero riscontrare una maggiore variabilità di latenza. La soglia viene impostata per modello. Per altre informazioni, vedere la pagina quote e limiti. Per i carichi di lavoro che richiedono una bassa varianza di latenza in un volume elevato, prendere in considerazione i tipi di distribuzione preconfigurati.
Data Zone Standard supporta l'elaborazione prioritaria (in modalità anteprima) per tempi di risposta più rapidi a consumo. Per altre informazioni, vedere Elaborazione prioritaria per i modelli Foundry (anteprima).
Zona dati provisionata
- Nome SKU nel codice:
DataZoneProvisionedManaged
Le distribuzioni con provisioning dell'area dati indirizzano dinamicamente il traffico all'interno della zona dati specificata da Microsoft (Stati Uniti o UE), fornendo al tempo stesso capacità di elaborazione del modello riservata. Questo tipo di distribuzione combina la conformità della zona di dati con throughput elevato e prevedibile.
Batch Zona Dati
- Nome SKU nel codice:
DataZoneBatch
Le distribuzioni batch di zona dati offrono le stesse funzionalità di Global Batch, tra cui 50% risparmio sui costi e turnaround di 24 ore. Il traffico viene instradato solo ai data center all'interno della zona dati definita dall'Microsoft (Stati Uniti o UE).
Standard
- Nome SKU nel codice:
Standard
Le distribuzioni standard usano la fatturazione con pagamento in base al token. Si paga solo per ciò che si consuma. I modelli disponibili in ciascuna regione e la capacità potrebbero essere limitati.
Le distribuzioni standard sono adatte per carichi di lavoro con volumi da bassi a medi e con picchi di attività elevati. I clienti con un volume coerente elevato potrebbero riscontrare una maggiore variabilità di latenza.
Provvigionamento regionale
- Nome SKU nel codice:
ProvisionedManaged
Le distribuzioni con provisioning regionale consentono di specificare la quantità di throughput necessaria in una distribuzione. Il servizio alloca quindi la capacità di elaborazione del modello necessaria e garantisce che sia pronta per l'utente. Il throughput è definito in termini di unità di throughput fornite (PTU), che è un modo standardizzato per rappresentare il throughput per la tua implementazione. Ogni coppia di versioni del modello richiede quantità diverse di PTU da distribuire e fornisce quantità diverse di velocità effettiva per PTU. I requisiti PTU minimi variano in base al modello. Per i minimi correnti e la capacità disponibile, vedere Concetti relativi alla velocità effettiva con provisioning.
Sviluppatore (per modelli ottimizzati)
- Nome SKU nel codice:
DeveloperTier
Il tipo di distribuzione Developer è progettato solo per la valutazione del modello affinata. Fornisce test convenienti dei modelli personalizzati, ma non include garanzie di residenza dei dati o un contratto di servizio. Le distribuzioni degli sviluppatori hanno una durata fissa di 24 ore e vengono eliminate automaticamente dopo la scadenza. Per altre informazioni sull'uso del tipo di distribuzione Developer, vedere la guida all'ottimizzazione.
Risoluzione dei problemi di distribuzione
Problemi comuni durante la creazione o l'uso delle distribuzioni:
| Problema | Causa | Risoluzione |
|---|---|---|
| Tipo di distribuzione non disponibile | Il modello non supporta il tipo selezionato | Controllare la disponibilità del modello in base al tipo di distribuzione |
| Quota superata | Limite di sottoscrizione raggiunto per i token al minuto | Richiedere l'aumento della quota nel portale di Azure o usare un'area diversa |
| Area non disponibile | Modello non distribuito nell'area selezionata | Selezionare un'area dall'elenco di disponibilità del modello |
| Capacità provisionata non disponibile | Nessuna capacità PTU nell'area | Provare un'area diversa o usare Provisioning globale per una disponibilità più ampia |
Per i limiti di quota per tipo di distribuzione, vedere Quote e limiti dei modelli Foundry.
Limitare i tipi di distribuzione con Criteri di Azure
Criteri di Azure consente di applicare gli standard dell'organizzazione e di valutare la conformità su larga scala. Tramite il dashboard di conformità, è possibile valutare lo stato complessivo dell'ambiente ed eseguire il drill-down in base alla granularità per risorsa e ai criteri. Criteri di Azure supporta anche la correzione in blocco per le risorse esistenti e la correzione automatica per le nuove risorse. Altre informazioni su Criteri di Azure e controlli predefiniti specifici per gli strumenti Foundry.
Usare i seguenti criteri per disabilitare l'accesso a un specifico tipo di distribuzione Foundry. Sostituire GlobalStandard con il nome dello SKU per il tipo di distribuzione che si vuole limitare.
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
Contenuto correlato
- Distribuire i modelli Foundry di Microsoft nel Portale Foundry
- Creare e distribuire una Azure OpenAI nella risorsa Microsoft Foundry Models
- I Foundry Models venduti direttamente da Azure
- Disponibilità dell'area del modello in base al tipo di distribuzione
- Quote e limiti dei modelli Microsoft Foundry
- Concetti relativi alla velocità effettiva con provisioning
- Elaborazione batch globale
- Servizio Azure OpenAI tariffe
- Privacy e sicurezza dei dati per i modelli Foundry
- Disponibilità elevata e ripristino di emergenza