Costi e fatturazione delle unità di throughput preconfigurato (PTU)

Usare questo articolo per informarsi sui costi associati alle unità di throughput provisionato (PTU). Per una panoramica dell'offerta di velocità effettiva con provisioning, vedere Informazioni sulla velocità effettiva con provisioning. Quando si è pronti per iscriversi all'offerta di velocità effettiva con provisioning, vedere la guida introduttiva.

Nota

Nei casi d'uso delle chiamate di funzione e dell'agente, l'utilizzo dei token può essere variabile. Dovreste comprendere in dettaglio il vostro utilizzo previsto di token al minuto (TPM) prima di migrare i carichi di lavoro a PTU.

Unità di throughput fornite

Le unità elaborate con provisioning (PTU) sono unità generiche della capacità di elaborazione del modello che è possibile usare per ridimensionare le distribuzioni di cui è stato effettuato il provisioning per ottenere la velocità effettiva necessaria per l'elaborazione delle richieste e la generazione di completamenti. Le unità di throughput provisionate vengono concesse a una sottoscrizione in qualità di quota. Ogni quota è specifica di un'area e definisce il numero massimo di PTU che possono essere assegnate alle distribuzioni in tale sottoscrizione e area.

Fatturazione della velocità effettiva con provisioning

Microsoft Foundry Regional Provisioned ThroughputData Zone Provisioned Throughput e Global Provisioned Throughput vengono fatturati ogni ora in base al numero di PTU distribuiti, con uno sconto a lungo termine disponibile tramite l'acquisto di prenotazioni Azure.

Il modello di fatturazione oraria è utile per le esigenze di distribuzione a breve termine, ad esempio la convalida di nuovi modelli o l'acquisizione della capacità per un hackathon.  Tuttavia, gli sconti offerti dalla prenotazione Azure per foundry Regional Provisioned, Data Zone Provisioned e Global Provisioned sono notevoli e la maggior parte dei clienti con utilizzo a lungo termine coerente troverà un modello riservato per essere una proposta di valore migliore.

Le prenotazioni di Azure sono un costrutto di sconto finanziario applicato ai contatori di fatturazione, non alle interazioni con i servizi (ad esempio, il deployment). Le prenotazioni e le distribuzioni sono accoppiate in modo libero per offrire flessibilità. Le distribuzioni e le prenotazioni vengono create o eliminate in modo indipendente. Questo approccio consente di modificare risorse, sottoscrizioni o distribuzioni senza modificare il costrutto di fatturazione.

Ordine consigliato di operazioni per evitare addebiti indesiderati:

  1. Usare Foundry per distribuire il modello in un'area con quota disponibile. Questo passaggio conferma l'esistenza della capacità, poiché la quota non è uguale alla capacità.
  2. Dopo la distribuzione, condividere con l'amministratore i dettagli della distribuzione, incluso il tipo di distribuzione (globale provisionato, zona dati provisionata, o regione provisionata), regione e sottoscrizione.
  3. L'amministratore usa questi dettagli per acquistare una nuova prenotazione corrispondente ai dettagli della distribuzione o verificare che una prenotazione esistente corrisponda, per ricevere la tariffa scontata.

Nota

Foundry ha effettuato il provisioning dei clienti che sono stati onboardati prima dell'aggiornamento self-service di agosto e utilizzano un modello di acquisto chiamato modello a impegno. Questi clienti possono continuare a utilizzare questo modello di acquisto più vecchio insieme al modello di acquisto orario/su prenotazione. Il modello Impegno non è disponibile per i nuovi clienti o per alcuni nuovi modelli introdotti dopo agosto 2024. Per informazioni dettagliate sul modello di acquisto a impegno e sulle opzioni per la coesistenza e la migrazione, vedere l'Aggiornamento di agosto di Foundry provisioning.

Quota indipendente dal modello

A differenza della quota Token Per Minuto (TPM) utilizzata da altre offerte di fonderia, i PTU sono indipendenti dal modello. Le PTU possono essere usate per distribuire tutti i modelli supportati ospitati e venduti direttamente da Microsoft nell'area.

Diagramma della quota indipendente dal modello con un pool di PTUs disponibili per più modelli Azure OpenAI.

La quota per le distribuzioni con provisioning viene visualizzata in Foundry come i seguenti tipi di distribuzione: provisioning globale, provisioning area dati e provisioning regionale.

Nota

La quota non garantisce la capacità. Distribuisci il tuo modello in Foundry prima di acquistare una prenotazione adeguata nel portale di Azure.

tipo di distribuzione Nome quota
Provisionamento regionale Unità di Throughput Provisionato Regionale
Provisionato globalmente Unità di Capacità Provisionata Globale
Area dati provisionata Unità di throughput provisionato zona dati

È possibile trovare informazioni dettagliate sulla quota per le distribuzioni sottoposte a provisioning nel riquadro Quota della sezione Operate del portale Microsoft Foundry.

Utilizzo orario

Le distribuzioni a livello regionale, le distribuzioni della zona dati e le distribuzioni globali con provisioning sono addebitati a una tariffa oraria ($/PTU/hr) in base al numero di PTU distribuiti.  Ad esempio, una distribuzione di 300 PTU vedrà applicata la tariffa oraria moltiplicata per 300.  Tutti i prezzi del modello Foundry sono disponibili nel calcolatore prezzi Azure.

Se esiste una distribuzione per un'ora parziale, riceverà un addebito ripartito proporzionalmente in base al numero di minuti distribuiti durante l'ora.  Ad esempio, un deployment attivo per 15 minuti durante un'ora verrà addebitato un quarto dell'addebito orario. 

Se le dimensioni della distribuzione vengono modificate, i costi della distribuzione verranno modificati in modo che corrispondano al nuovo numero di UNITÀ PTU.

Diagramma che mostra la fatturazione oraria.

Il pagamento per le distribuzioni con provisioning regionale, con provisioning a livello di zona dati e con provisioning globale su base oraria è ideale per scenari di distribuzione a breve termine.  Ad esempio: benchmark qualità e prestazioni di nuovi modelli o aumento temporaneamente della capacità PTU per coprire un evento come un hackathon. 

I clienti che richiedono l'utilizzo a lungo termine di distribuzioni con provisioning regionale, con provisioning a livello di zona dati e con provisioning globale, tuttavia, potrebbero pagare significativamente meno al mese acquistando uno sconto a termine tramite Azure Reservations come spiegato più avanti nell'articolo.

Importante

Non è consigliabile ridimensionare le distribuzioni di produzione in base al traffico in ingresso e pagarle esclusivamente su base oraria. Esistono due motivi:

  • I risparmi sui costi ottenuti acquistando le prenotazioni Azure per la velocità effettiva fornita da Foundry, il provisioning della zona dati e il provisioning globale sono significativi e, in molti casi, sarà meno costoso mantenere una distribuzione adatta al volume di produzione completo pagata tramite una prenotazione rispetto a rispettivamente ridimensionare la distribuzione secondo il traffico in arrivo.
  • La presenza di quote di capacità assegnata inutilizzate (PTU) non garantisce che la capacità sarà disponibile per supportare un aumento delle risorse distribuite quando richiesto. La quota limita il numero massimo di PTU che possono essere distribuite, ma non è una garanzia di capacità. La capacità di provisioning per ogni regione e modello cambia dinamicamente durante il giorno e potrebbe non essere disponibile quando necessario. Di conseguenza, è consigliabile mantenere una distribuzione permanente per coprire le esigenze del traffico (pagate tramite una prenotazione).

Eliminare le implementazioni PTU

Importante

Gli addebiti per le distribuzioni in una risorsa eliminata continueranno fino a quando la risorsa non viene eliminata. Per evitare addebiti indesiderati, eliminare la distribuzione di una risorsa prima di eliminare la risorsa. Tuttavia, se la risorsa è già stata eliminata, è possibile recuperarla o eliminarla. Per ulteriori informazioni, vedere recuperare o eliminare definitivamente le risorse Azure OpenAI eliminate.

L'eliminazione di una distribuzione non annulla o modifica alcuna prenotazione PTU. Le prenotazioni non supportano l'eliminazione. È possibile usare il portale di Azure per annullare o scambiare le prenotazioni manualmente e queste opzioni potrebbero comportare costi aggiuntivi.

Utilizzare questi passaggi per eliminare una distribuzione provisioning per evitare addebiti indesiderati.

  1. Eliminare la distribuzione nel portale Microsoft Foundry.
  2. Se si prevede di rimuovere la risorsa di intelligenza artificiale Azure, eliminare prima le distribuzioni, quindi eliminare la risorsa. Cancellare la risorsa per interrompere gli addebiti.
  3. Passare alla pagina Reservations nel portale di Azure per gestire le prenotazioni. Nel portale di Azure è possibile acquistare, annullare o scambiare prenotazioni per allinearsi alle distribuzioni correnti.

Quantità di velocità effettiva per PTU che si ottiene per ogni modello

La quantità di throughput (misurata in token al minuto o TPM) che un'implementazione ottiene per PTU è una funzione dei token di input e output in un dato minuto. La generazione di token di output richiede più elaborazione rispetto ai token di input. A partire dai modelli GPT 4.1 e versioni successive, il sistema corrisponde in genere al rapporto di prezzo standard globale tra token di input e output, con eccezioni per alcuni modelli. Per tutte le distribuzioni, i token memorizzati nella cache vengono detratti da 100% dall'utilizzo.

Ad esempio, per gpt-5, un token di output viene conteggiato come otto token di input rispetto al limite di utilizzo, il che corrisponde alla tariffazione. Per altri modelli, ad esempio gpt-4.1, un token di output viene conteggiato come quattro token di input. I modelli meno recenti usano un rapporto diverso.

Eccezioni al rapporto di larghezza di banda di input e output

Il sistema consente eccezioni al rapporto standard tra token di input e output per determinati modelli. Ad esempio, con Llama-3.3-70B-Instruct, un token di output viene conteggiato come quattro token di input verso il limite di utilizzo. Questo rapporto è diverso dal rapporto di prezzo standard globale tra i token di input e di output. Per visualizzare i prezzi di input e output per il modello, vedere Prezzi per i modelli llama.

Modelli OpenAI Azure più recenti

Nota

gpt-5.4, gpt-4.1, gpt-4.1-mini e gpt-4.1-nano non supportano il contesto lungo (le richieste stimate a più di 128.000 token del prompt).

Argomento gpt-5.5 gpt-5.4 gpt-5.3-codex gpt-5.2 gpt-5.2-codex gpt-5.1 gpt-5.1-codex gpt-5 gpt-5-mini gpt-4.1 gpt-4.1-mini gpt-4.1-nano o3 o4-mini
Distribuzione minima del provisioning della zona globale e dati 15 15 15 15 15 15 15 15 15 15 15 15 15 15
Incremento della scala con provisioning della zona globale e dati 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Distribuzione minima prevista a livello regionale 50 50 50 50 50 50 50 50 25 50 25 25 50 25
Incremento della scalabilità provisionata regionale 50 50 50 50 50 50 50 50 25 50 25 25 50 25
Input TPM per PTU 1,200 2,400 3,400 3,400 3,400 4,750 4,750 4,750 23.750 3,000 14,900 59.400 3,000 5,400
Valore di destinazione della latenza 99% > 100 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 80 token al secondo* 99% > 80 token al secondo* 99% > 90 token al secondo* 99% > 100 token al secondo* 99% > 80 token al secondo* 99% > 90 token al secondo*

* Calcolata come latenza di richiesta p50 su base 5 minuti.

Modelli OpenAI precedenti Azure

Argomento gpt-4o gpt-4o-mini o3-mini o1
Distribuzione minima del provisioning della zona globale e dati 15 15 15 15
Incremento della scala con provisioning della zona globale e dati 5 5 5 5
Distribuzione minima prevista a livello regionale 50 25 25 25
Incremento della scalabilità provisionata regionale 50 25 25 50
Input TPM per PTU 2,500 37,000 2,500 230
Valore di destinazione della latenza 99% > 25 token al secondo* 99% > 33 token al secondo* 99% > 66 token al secondo* 99% > 25 token al secondo*

* Calcolata come latenza media della richiesta su base oraria al minuto nel mese.

Direttamente dai modelli di Azure

Argomento Llama-3.3-70B-Instruct DeepSeek-R1 DeepSeek-V3-0324 DeepSeek-R1-0528
Distribuzione minima del provisioning della zona globale e dati 100 100 100 100
Incremento della scala con provisioning della zona globale e dati 100 100 100 100
Distribuzione minima prevista a livello regionale NA NA NA NA
Incremento della scalabilità provisionata regionale NA NA NA NA
Input TPM per PTU 8.4501 4,000 4,000 4,000
Valore di destinazione della latenza 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo*

* Calcolata come latenza media della richiesta su base oraria al minuto nel mese.

1 Per Llama-3.3-70B-Instruct, un token di output conta come quattro token di input verso il limite di utilizzo. Questo rapporto è diverso dal rapporto di prezzo standard globale tra i token di input e di output. Per altri dettagli, vedere Eccezioni al rapporto tra velocità effettiva di input e output.

Fuochi d'artificio sui modelli Microsoft Foundry (anteprima)

I seguenti Fireworks sui modelli Microsoft Foundry supportano attualmente il throughput provisionato.

Argomento gpt-oss-120b Kimi K2 Instruct 0905 Kimi K2 Thinking Kimi K2.5 Kimi K2.6 DeepSeek v3.1 DeepSeek v3.2 Qwen3 14B MiniMax 2.5 GLM-5 GLM-4.7
Distribuzione minima con provisioning globale 80 500 500 800 800 800 1200 80 400 700 800
Aumento di scala fornito a livello globale 40 275 275 400 400 400 600 40 200 350 400
Input TPM per PTU 13,500 1,250 700 530 2.000 1,050 1,500 4,800 3,000 3,500 3,000
Valore di destinazione della latenza 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo* 99% > 50 token al secondo*

* Calcolata come latenza media della richiesta su base oraria al minuto nel mese.

Determinare i requisiti PTU per un carico di lavoro

Determinare il numero corretto di unità di throughput fornite per il carico di lavoro è un passaggio essenziale per ottimizzare sia le prestazioni che i costi.

Le PTU rappresentano una quantità di capacità di elaborazione del modello. Analogamente al computer o ai database, carichi di lavoro o richieste diversi al modello utilizzeranno quantità diverse di capacità di elaborazione sottostante. La conversione dalla capacità di trasmissione ai PTU può essere approssimata utilizzando i dati storici di utilizzo dei token o le stime del profilo delle chiamate (token di input, token di output e richieste per minuto) come descritto nella documentazione sulle prestazioni e sulla latenza.

Alcune considerazioni generali:

  • Le generazioni richiedono una maggiore capacità rispetto ai prompt
  • Per i modelli GPT-4o e versioni successive, il TPM per PTU viene impostato separatamente per i token di input e output. Per i modelli meno recenti, le chiamate più grandi sono progressivamente più costose da calcolare. Ad esempio, 100 chiamate con una dimensione del prompt di 1000 token richiedono meno capacità rispetto a una chiamata con 100.000 token nel prompt. Questa suddivisione in livelli significa che la distribuzione di queste forme di chiamata è importante nella velocità effettiva complessiva. I modelli di traffico con una distribuzione estesa che include alcune chiamate di grandi dimensioni potrebbero riscontrare una velocità effettiva inferiore per PTU rispetto a una distribuzione più stretta con le stesse dimensioni medie dei token di richiesta e completamento.

Ottenere la quota PTU

I clienti devono richiedere la quota tramite il collegamento richiedi quota.

Se sono necessarie più quote, è inoltre necessario richiederle tramite il collegamento nella sezione Microsoft FoundryOperate>Quota. Il modulo consente al cliente di richiedere un aumento della quota PTU specificata per una determinata area. Il cliente riceve un messaggio di posta elettronica all'indirizzo incluso dopo l'approvazione della richiesta, in genere entro due giorni lavorativi.

Minimi PTU per Modello

La distribuzione, gli incrementi e la capacità di elaborazione minimi associati a ogni unità variano in base al tipo di modello e alla versione. Per altre informazioni, vedere la tabella precedente.

Prenotazioni Azure per il throughput riservato con provisioning su Foundry

Gli sconti sul prezzo di utilizzo orario possono essere ottenuti acquistando una prenotazione Azure per Foundry Regional Provisioned, Data Zone Provisioned e Global Provisioned. Una prenotazione Azure è un meccanismo di sconto a termine condiviso da molti prodotti Azure. Ad esempio, Calcolo e Cosmos DB. Per Foundry Regional Provisioned, Data Zone Provisioned e Global Provisioned, la prenotazione offre uno sconto in cambio dell'impegno di pagamento per un numero fisso di PTU per un mese o un anno.

  • Le Azure Reservations vengono acquistate tramite la pagina Reservations nel portale di Azure.

  • Le prenotazioni vengono acquistate a livello regionale e possono avere una portata flessibile per coprire l'utilizzo per un gruppo di implementazioni. Gli ambiti di prenotazione includono:

    • Singoli gruppi di risorse o sottoscrizioni

    • Gruppo di sottoscrizioni in un gruppo di gestione

    • Tutte le sottoscrizioni in un account di fatturazione

  • Lo sconto si applica quando il tipo di distribuzione (area geografica/zona dati/globale), l'area e l'ambito della prenotazione (sottoscrizione o gruppo di risorse) corrispondono alla distribuzione in esecuzione. La corrispondenza non è basata su modello o ID di distribuzione. Più distribuzioni all'interno dell'ambito possono usare la stessa prenotazione fino alla quantità PTU.

  • È possibile acquistare nuove prenotazioni per coprire lo stesso ambito delle prenotazioni esistenti, per consentire lo sconto delle nuove distribuzioni provisionate. L'ambito delle prenotazioni esistenti può anche essere aggiornato in qualsiasi momento senza penalità, ad esempio per coprire una nuova sottoscrizione.

  • Le prenotazioni per le distribuzioni globali, della zona dati e dell'area geografica non sono intercambiabili. È necessario acquistare una prenotazione separata per ogni tipo di distribuzione.

  • Le prenotazioni possono essere annullate dopo l'acquisto, ma i crediti sono limitati.

  • Se le dimensioni delle distribuzioni fornite superano la quantità riservata, l'eccedenza viene addebitata secondo la tariffa oraria. Ad esempio, se le distribuzioni che ammontano a 250 PTU sono presenti nell'ambito di una prenotazione PTU di 200, verranno addebitati 50 PTU su base oraria fino a quando le dimensioni della distribuzione non vengono ridotte a 200 PTU o viene creata una nuova prenotazione per coprire i rimanenti 50.

  • Le prenotazioni garantiscono un prezzo scontato per il periodo selezionato.  Non riservano capacità per il servizio né garantiscono che sarà disponibile quando viene creata una distribuzione. È consigliabile che i clienti creino distribuzioni prima di acquistare una prenotazione per proteggersi dall'acquisto eccessivo di una prenotazione.

Importante

  • La disponibilità della capacità per le distribuzioni di modelli è dinamica e cambia frequentemente tra aree e modelli. Per proteggersi dall'acquisto di una prenotazione per più PTU di quanto sia possibile usare, creare prima le distribuzioni e quindi acquistare la prenotazione Azure per coprire i PTU distribuiti. Questa procedura consigliata garantisce che sia possibile sfruttare appieno lo sconto per la prenotazione e protegge l'utente dal commit a una prenotazione che non è possibile usare.

  • I requisiti relativi ai criteri del ruolo e del tenant di Azure necessari per acquistare una prenotazione sono diversi da quelli necessari per creare una distribuzione o una risorsa Foundry. Verificare l'autorizzazione per acquistare prenotazioni prima di dover eseguire questa operazione. Per altri dettagli, vedere Foundry Provisioning Throughput Reservation (Prenotazione velocità effettiva con provisioning di Foundry ).

Ridimensionare la prenotazione della velocità effettiva con provisioning di Foundry

Gli importi PTU negli acquisti di prenotazioni sono indipendenti dalle PTU allocate nella quota o usate nelle distribuzioni. È possibile acquistare una prenotazione per più PTU rispetto alla quota oppure distribuire per l'area, il modello o la versione desiderata. I crediti per gli acquisti in eccesso di una prenotazione sono limitati e i clienti devono adottare misure per garantire che le dimensioni delle prenotazioni siano in linea con i PTU distribuiti.

La migliore pratica consiste nell'acquistare sempre una prenotazione una volta completata la distribuzione. Questo protegge dall'acquisto di una prenotazione per poi constatare che la capacità necessaria non è disponibile per la regione o il modello desiderato.

Le prenotazioni per le distribuzioni globali, della zona dati e dell'area geografica non sono intercambiabili. È necessario acquistare una prenotazione separata per ogni tipo di distribuzione.

Gestire le prenotazioni Azure

Dopo aver creato una prenotazione, monitorarla tramite il portale di prenotazione Azure o Monitoraggio di Azure per assicurarsi che la prenotazione riceva l'utilizzo previsto. Per altre informazioni sulla gestione e il monitoraggio delle prenotazioni Azure, vedere questi articoli: