Custos e faturação da unidade de taxa de transferência provisionada (PTU) (clássico)

Atualmente a ver:Portal Foundry (clássica) versão - Mudar para a versão do novo Portal Foundry

Utilize este artigo para saber mais sobre os custos associados às unidades de débito provisionadas (PTU). Para ver uma visão geral da oferta de throughput provisionado, consulte o que é throughput provisionado?. Quando estiver pronto para se inscrever na oferta de throughput provisionado, consulte o guia para começar.

Nota

Nos casos de chamada de funções e de uso de agentes, o uso de tokens pode ser variável. Deve compreender em detalhe o seu uso esperado de Tokens Por Minuto (TPM) antes de migrar as suas cargas de trabalho para PTU.

Unidades de throughput provisionadas

As unidades de throughput provisionado (PTU) são unidades genéricas de capacidade de processamento de modelos que pode utilizar para dimensionar implantações provisionadas e obter o throughput necessário para processar prompts e gerar conclusões. As unidades de capacidade provisionadas são atribuídas a uma subscrição como limite. Cada quota é específica para uma região e define o número máximo de PTUs que podem ser atribuídas a implementações nessa subscrição e região.

Faturação de capacidade provisionada

Microsoft Foundry Regional Provisioned Throughput, Data Zone Provisioned Throughput e Global Provisioned Throughput são faturados por hora com base no número de PTUs implementadas, com um desconto substancial por prazo disponível na compra de reservas do Azure.

O modelo de faturação horária é útil para necessidades de implementação de curto prazo, como validar novos modelos ou adquirir capacidade para um hackathon.  No entanto, os descontos fornecidos pela reserva Azure para Foundry Regional Provisioned, Data Zone Provisioned e Global Provisioned são consideráveis e a maioria dos clientes com uso consistente a longo prazo achará que um modelo reservado é uma proposta de melhor valor.

Reservas do Azure são um mecanismo de desconto financeiro aplicado a medidores de faturação, não a interações de serviço (como a implementação de serviços). Reservas e implantações estão ligadas de forma frouxa para proporcionar flexibilidade. Crias ou eliminas implementações e reservas de forma independente. Esta abordagem permite-lhe alterar recursos, subscrições ou implementações sem alterar a estrutura de faturação.

Ordem recomendada de operações para evitar cargas indesejadas:

Use o Foundry para implementar o seu modelo numa região com quota disponível. Este passo confirma que a capacidade existe, uma vez que quota não é igual a capacidade.
Após a implementação, partilhe detalhes de implementação, incluindo o tipo de implementação (Global Provisioned, Data Zone Provisioned ou Regional Provisioned), região e subscrição, com o seu administrador.
O administrador utiliza estes dados para comprar uma nova reserva que corresponda aos detalhes da implementação, ou para verificar se uma reserva existente corresponde, para receber a tarifa com desconto.

Nota

A Foundry forneceu aos clientes integrados antes da atualização de autoatendimento de agosto um modelo de compra chamado modelo Compromisso. Estes clientes podem continuar a usar este modelo de compra mais antigo juntamente com o modelo de compra por hora/reserva. O modelo Commitment não está disponível para novos clientes nem para certos modelos novos lançados após agosto de 2024. Para detalhes sobre o modelo de compra da Commitment e opções de coexistência e migração, consulte a Atualização de Agosto Provisionada pela Foundry.

Quota independente do modelo

Ao contrário da quota de Tokens Por Minuto (TPM) usada por outras ofertas da Foundry, as PTUs são independentes do modelo. As PTUs podem ser usadas para implementar quaisquer modelos suportados alojados e vendidos diretamente pela Microsoft na região.

A quota para implementações provisionadas aparece no Foundry como os seguintes tipos de implementação: provisionado global, provisionado por zona de dados e provisionado regional.

Nota

A quota não garante capacidade. Implemente o seu modelo no Foundry antes de comprar uma reserva correspondente no portal Azure.

Tipo de implantação	Nome da quota
Provisionamento Regional	Unidade Regional de Capacidade Abastecida
Global Provisionado	Unidade Global de Débito Provisionado
Zona de dados Provisionada	Unidade de Taxa de Transferência Provisionada por Zona de Dados

Pode consultar detalhes sobre quotas para implantações provisionadas no portal Foundry, na página de Quotas do Centro de Gestão.

Utilização horária

As implementações Regional Provisionadas, Zona de Dados Provisionadas e Global Provisionadas são cobradas por hora ($/PTU/hr) com base no número de PTUs implantados.  Por exemplo, uma implantação de 300 PTU será cobrada à taxa horária multiplicada por 300.  Todos os preços dos modelos Foundry estão disponíveis na Calculadora de Preços do Azure.

Se uma implementação existir durante uma hora parcial, receberá uma cobrança proporcional com base no número de minutos em que foi utilizada durante essa hora.  Por exemplo, uma implantação que esteja ativa por 15 minutos numa hora incorrerá em 1/4 da cobrança horária. 

Se o tamanho da implantação for alterado, os custos da implementação serão ajustados para corresponder ao novo número de PTUs.

Para cenários de implementação de curto prazo, pagar por implantações regionais, por zonas de dados e por provisionamentos globais numa base horária é ideal.  Por exemplo: avaliação de qualidade e desempenho de novos modelos, ou aumentar temporariamente a capacidade da PTU para cobrir um evento como um hackathon. 

No entanto, os clientes que necessitam de utilização a longo prazo de implementações provisionadas regionalmente, provisionadas em zona de dados e globalmente podem, no entanto, pagar significativamente menos por mês ao adquirir um desconto de prazo através de Azure Reservas conforme discutido mais adiante no artigo.

Importante

Não é recomendado escalar as implantações em produção de acordo com o tráfego recebido e pagar por elas apenas por hora. Existem duas razões para isso:

As poupanças de custos obtidas ao adquirir Azure Reservations para Foundry Provisioned Throughput, Data Zone Provisioned e Global Provisioned são significativas. Em muitos casos, será menos dispendioso manter uma implementação dimensionada para o volume total de produção, paga através de uma reserva, do que escalar a implementação consoante o aumento do tráfego recebido.
Ter quotas provisionadas (PTU) não utilizadas não garante que a capacidade estará disponível para suportar um aumento do tamanho da implantação quando necessário. A quota limita o número máximo de PTUs que podem ser implantadas, mas não é uma garantia de capacidade. A capacidade provisionada para cada região e modelo muda dinamicamente ao longo do dia e pode não estar disponível quando necessário. Por isso, recomenda-se manter uma implantação permanente para cobrir as suas necessidades de tráfego (paga através de uma reserva).

Eliminar as implantações de PTU

Importante

As cobranças por implementações num recurso eliminado continuam até que o recurso seja eliminado. Para evitar cargas indesejadas, elimine a implementação de um recurso antes de o eliminar. No entanto, se já apagaste o recurso primeiro, podes recuperá-lo ou eliminá-lo. Para mais informações, consulte recuperar ou eliminar recursos OpenAI do Azure eliminados.

Eliminar uma implantação não cancela nem altera qualquer reserva de PTU. As reservas não suportam remoção. Pode usar o portal do Azure para cancelar ou trocar reservas manualmente, e estas opções podem acarretar taxas adicionais.

Use estes passos para eliminar uma implementação provisionada e evitar encargos indesejados.

Apague a implementação no portal Foundry.
Se planeias remover o recurso de IA do Azure, apaga primeiro as implementações e depois apaga o recurso. Limpa o recurso para parar os custos.
Aceda à página Reservas no portal Azure para gerir as reservas. No portal Azure, pode comprar, cancelar ou trocar reservas para alinhar com as implementações atuais.

Qual a largura de banda por PTU que obténs de cada modelo

A quantidade de débito (medida em tokens por minuto ou TPM) que uma implementação recebe por PTU depende dos tokens de entrada e saída em um determinado minuto. Gerar tokens de saída requer mais processamento do que tokens de entrada. A partir dos modelos GPT 4.1 e posteriores, o sistema geralmente alinha-se com a razão de preços padrão global entre tokens de entrada e saída, com exceções para alguns modelos. Para todas as implementações, os tokens em cache são deduzidos 100% da utilização.

Por exemplo, para o gpt-5, um token de saída conta como oito tokens de entrada para o limite de utilização, que corresponde ao preço. Para outros modelos, como o gpt-4.1, um token de saída conta como quatro tokens de entrada. Modelos mais antigos usam uma proporção diferente.

Para uma compreensão mais profunda de como diferentes proporções de tokens de entrada e saída impactam o rendimento necessário para a carga de trabalho, consulte a calculadora de quotas da Foundry PTU.

Exceções à taxa de transferência de entrada e saída

O sistema permite exceções à relação padrão de tokens de entrada/saída para certos modelos. Por exemplo, com o Llama-3.3-70B-Instruct, um token de saída conta como quatro tokens de entrada para o seu limite de utilização. Esta razão difere da razão de preços padrão global entre tokens de entrada e saída. Para ver os preços de entrada e saída do modelo, veja preços para modelos Llama.

Modelos mais recentes do Azure OpenAI

Nota

GPT-5.4, GPT-4.1, GPT-4.1-mini e GPT-4.1-nano não suportam contexto longo (solicitações estimadas em mais de 128k tokens de prompt).

Tema	GPT-5.5	GPT-5.4	gpt-5.3-codex	GPT-5.2	GPT-5.2-codex	GPT-5.1	gpt-5.1-codex	GPT-5	GPT-5-mini	GPT-4.1	GPT-4.1-mini	GPT-4.1-Nano	o3	O4-mini
Zona de dados global com implementação mínima provisionada	15	15	15	15	15	15	15	15	15	15	15	15	15	15
Incremento de escala global e nas zonas de dados provisionadas	5	5	5	5	5	5	5	5	5	5	5	5	5	5
Implementação mínima regional provisionada	50	50	50	50	50	50	50	50	25	50	25	25	50	25
Incremento da escala regional de provisões	50	50	50	50	50	50	50	50	25	50	25	25	50	25
TPM de entrada por PTU	1,200	2,400	3,400	3,400	3,400	4,750	4,750	4,750	23.750	3,000	14,900	59,400	3,000	5,400
Valor Alvo de Latência	99% > 100 fichas por segundo*	99% > 50 Tokens por Segundo*	99% > 50 Tokens por Segundo*	99% > 50 Tokens por Segundo*	99% > 50 Tokens por Segundo*	99% > 50 Tokens por Segundo*	99% > 50 Tokens por Segundo*	99% > 50 Tokens por Segundo*	99% > 80 fichas por segundo*	99% > 80 fichas por segundo*	99% > 90 tokens por segundo*	99% > 100 fichas por segundo*	99% > 80 fichas por segundo*	99% > 90 tokens por segundo*

* Calculado como latência de pedido p50 por 5 minutos.

Modelos anteriores do Azure OpenAI

Tema	GPT-4O	GPT-4O-mini	O3-mini	o1
Zona de dados global com implementação mínima provisionada	15	15	15	15
Incremento de escala global e nas zonas de dados provisionadas	5	5	5	5
Implementação mínima regional provisionada	50	25	25	25
Incremento da escala regional de provisões	50	25	25	50
TPM de entrada por PTU	2,500	37,000	2,500	230
Valor Alvo de Latência	99% > 25 tokens por segundo*	99% > 33 tokens por segundo*	99% > 66 tokens por segundo*	99% > 25 tokens por segundo*

* Calculado como a latência média dos pedidos por minuto ao longo do mês.

Diretamente dos modelos Azure

Tema	Llama-3.3-70B-Instruct	DeepSeek-R1	DeepSeek-V3-0324	DeepSeek-R1-0528
Zona de dados global com implementação mínima provisionada	100	100	100	100
Incremento de escala global e nas zonas de dados provisionadas	100	100	100	100
Implementação mínima regional provisionada	NA	NA	NA	NA
Incremento da escala regional de provisões	NA	NA	NA	NA
TPM de entrada por PTU	8.450¹	4,000	4,000	4,000
Valor Alvo de Latência	99% > 50 Tokens por Segundo*	99% > 50 Tokens por Segundo*	99% > 50 Tokens por Segundo*	99% > 50 Tokens por Segundo*

* Calculado como a latência média dos pedidos por minuto ao longo do mês.

¹ Para o Llama-3.3-70B-Instruct, um token de saída conta como quatro tokens de entrada em relação ao seu limite de utilização. Esta razão difere da razão de preços padrão global entre tokens de entrada e saída. Para mais detalhes, veja Exceções à razão de rendimento de entrada e saída.

Para uma lista completa, consulte a calculadora Foundry.

Fogo de Artifício nos modelos do Microsoft Foundry (Pré-visualização)

Os modelos Fireworks listados abaixo na Microsoft Foundry atualmente suportam largura de banda provisionada.

Tema	GPT-OSS-120B	Kimi K2 Instruct 0905	Pensamento Kimi K2	Kimi K2.5	Kimi K2.6	DeepSeek v3.1	DeepSeek v3.2	Qwen3 14B	MiniMax 2.5	GLM-5	GLM-4.7
Desdobramento mínimo global provisionado	80	500	500	800	800	800	1200	80	400	700	800
Incremento global de escala provisionada	40	275	275	400	400	400	600	40	200	350	400
TPM de entrada por PTU	13,500	1,250	700	530	2.000	1,050	1,500	4,800	3,000	3,500	3,000
Valor Alvo de Latência	99% > 50 Tokens por Segundo*	99% > 50 Tokens por Segundo*	99% > 50 Tokens por Segundo*	99% > 50 Tokens por Segundo*	99% > 50 Tokens por Segundo*	99% > 50 Tokens por Segundo*	99% > 50 Tokens por Segundo*	99% > 50 Tokens por Segundo*	99% > 50 Tokens por Segundo*	99% > 50 Tokens por Segundo*	99% > 50 Tokens por Segundo*

* Calculado como a latência média dos pedidos por minuto ao longo do mês.

Determinar os requisitos de PTU para uma carga de trabalho

Determinar o número correto de unidades de débito (PTU) provisionadas para a sua carga de trabalho é um passo essencial para otimizar o desempenho e o custo.

As PTUs representam uma quantidade de capacidade de processamento de modelos. Tal como no seu computador ou bases de dados, diferentes cargas de trabalho ou pedidos ao modelo consumirão diferentes quantidades da capacidade de processamento subjacente. A conversão das necessidades de throughput em PTUs pode ser aproximada usando dados históricos de utilização de tokens ou estimativas de perfis de chamadas (tokens de entrada, tokens de saída e pedidos por minuto), conforme descrito na documentação de desempenho e latência.

Para simplificar este processo, pode usar a calculadora Foundry para dimensionar formas específicas de carga de trabalho.

Algumas considerações de alto nível:

As gerações requerem mais capacidade do que os prompts
Para GPT-4o e modelos posteriores, o TPM por PTU é definido separadamente para tokens de entrada e saída. Para modelos mais antigos, chamadas maiores ficam progressivamente mais caras de processar. Por exemplo, 100 chamadas com um pedido de 1000 tokens requerem menos capacidade do que uma chamada com 100.000 tokens no prompt. Este escalonamento significa que a distribuição destas formas de chamadas é importante para o throughput global. Padrões de tráfego com uma distribuição ampla que inclui algumas grandes solicitações podem ter uma taxa de transferência por Unidade de Transmissão de Protocolo (PTU) menor do que uma distribuição mais restrita, mesmo com os mesmos tamanhos médios de prompts e tokens de conclusão.

Obter a quota da PTU

Os clientes precisam de pedir quota através do Link de Pedido de Quota.

Se forem necessárias mais quotas, também precisa de solicitar quotas através do link no centro de quotas no centro de gestão da Foundry. O formulário permite ao cliente solicitar um aumento da quota de PTU especificada para uma determinada região. O cliente recebe um email no endereço incluído assim que o pedido é aprovado, normalmente dentro de dois dias úteis.

Mínimos por modelo da PTU

A implementação mínima da PTU, os incrementos e a capacidade de processamento associados a cada unidade variam consoante o tipo e a versão do modelo. Consulte a tabela acima para mais informações.

Estimar unidades de taxa de transferência provisionadas e custo

Para obter uma estimativa rápida da sua carga de trabalho usando o TPM de entrada e saída, aproveite o planeador de capacidade incorporado na secção de detalhes de implementação do ecrã de diálogo de implementação. O planeador de capacidade incorporado faz parte do fluxo de trabalho de implementação para ajudar a simplificar o dimensionamento e a alocação de quota para uma implementação de PTU para uma carga de trabalho específica. Para mais informações sobre como identificar e estimar dados de TPM, consulte as recomendações na nossa documentação de desempenho e latência.

Para usar o planeador de capacidade, vá ao portal Foundry e selecione o botão Implementações . Depois seleciona Deploy model.

Escolha um modelo e clique em Confirmar. Selecione um tipo de implementação de largura de banda de provisionamento. Depois de preencher os dados TPM de entrada e saída na calculadora de capacidade incorporada, selecione o botão Calcular para visualizar a sua recomendação de alocação da PTU.

Para estimar a capacidade provisionada usando dados ao nível do pedido, abra o planeador de capacidade no portal Foundry. O calculador de capacidade está no Centro de Gestão>Quota>Débito Provisionado.

A opção de Débito Provisionado e a calculadora só estão disponíveis em certas regiões dentro do painel de Cotas; se não vires esta opção, definir a região de quota para Suécia Central tornará essa opção disponível. Introduza os seguintes parâmetros com base na sua carga de trabalho.

Entrada	Descrição
Modelo	Modelo que planeias usar. Por exemplo: GPT-4
Versão	Versão do modelo que planeia usar, por exemplo 0614
Chamadas de pico por minuto	O número de chamadas por minuto que se espera que sejam enviadas ao modelo
Tokens em chamada de prompt	O número de tokens no prompt para cada chamada ao modelo. Chamadas com prompts maiores utilizam mais o recurso de implantação da PTU. Atualmente, esta calculadora assume um único valor de prompt, portanto para cargas de trabalho com grande variação. Recomendamos que compares a sua implementação com o tráfego para determinar a estimativa mais precisa da PTU necessária para a sua implementação.
Tokens na resposta do modelo	O número de tokens gerados a partir de cada chamada para o modelo. Chamadas com tamanhos de geração maiores utilizam mais a implementação do PTU. Atualmente, esta calculadora assume um único valor de prompt, portanto para cargas de trabalho com grande variação. Recomendamos que compares a sua implementação com o tráfego para determinar a estimativa mais precisa da PTU necessária para a sua implementação.

Depois de preencher os detalhes necessários, selecione o botão Calcular na coluna de saída.

Os valores na coluna de saída são o valor estimado das unidades PTU necessárias para as entradas de carga de trabalho fornecidas. O primeiro valor de saída representa as unidades PTU estimadas necessárias para a carga de trabalho, arredondadas para o incremento de escala PTU mais próximo. O segundo valor de saída representa as unidades brutas estimadas de PTU necessárias para a carga de trabalho. Os totais dos tokens são calculados usando a seguinte equação: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).

Nota

Os calculadores de capacidade fornecem uma estimativa baseada em critérios simples de entrada. A forma mais precisa de determinar a sua capacidade é comparar uma implementação com uma carga de trabalho representacional para o seu caso de uso.

Reservas do Azure para Largura de Banda Provisionada pela Foundry

Descontos para além do preço de utilização por hora podem ser obtidos adquirindo uma Reserva Azure para Foundry Regional Provisioned, Data Zone Provisioned e Global Provisioned. Uma Reserva do Azure é um mecanismo de desconto de prazo partilhado por muitos produtos do Azure. Por exemplo, Compute e Cosmos DB. Para Foundry Regional Provisioned, Data Zone Provisioned e Global Provisioned, a reserva oferece um desconto em troca do compromisso de pagamento de um número fixo de PTUs, seja por um período de um mês ou de um ano.

Azure As Reservas são adquiridas através da página de Reservas no portal Azure.
As reservas são adquiridas regionalmente e podem ser flexibilizadas para cobrir o uso de um grupo de implementações. Os escopos das reservas incluem:
- Grupos de recursos individuais ou subscrições
- Um grupo de subscrições num Grupo de Gestão
- Todas as subscrições numa conta de faturação
O desconto aplica-se quando o tipo de implementação (Regional/Zona de Dados/Global), a Região e o âmbito de Reserva (subscrição ou grupo de recursos) correspondem à implementação em curso. A correspondência não é feita por modelo ou ID de implementação. Múltiplas implantações dentro do escopo podem consumir a mesma reserva até ao limite da quantidade de PTU.
Novas reservas podem ser adquiridas para cobrir o mesmo âmbito das reservas existentes, permitindo descontos em novas implantações provisionadas. O âmbito das reservas existentes pode também ser atualizado a qualquer momento sem penalização, por exemplo para cobrir uma nova subscrição.
As reservas para implementações globais, de zona de dados e regionais não são intercambiáveis. Precisa de comprar uma reserva separada para cada tipo de destacamento.
As reservas podem ser canceladas após a compra, mas os créditos são limitados.
Se o tamanho das implantações provisionadas no âmbito de uma reserva exceder o montante da reserva, o excesso é cobrado à tarifa horária. Por exemplo, se existirem implantações no valor de 250 PTUs dentro do âmbito de uma reserva de 200 PTU, serão cobradas 50 PTUs por hora até que o tamanho das implantações seja reduzido para 200 PTU, ou seja criada uma nova reserva para cobrir as restantes 50.
As reservas garantem um preço reduzido para o período selecionado.  Eles não reservam capacidade para o serviço nem garantem que ele estará disponível quando uma implantação for realizada. É fortemente aconselhável que os clientes criem implementações antes de adquirir uma reserva para se protegerem contra a compra excessiva de reservas.

Importante

A disponibilidade de capacidade para implementações de modelos é dinâmica e muda frequentemente entre regiões e modelos. Para evitar a compra de uma reserva para mais PTUs do que pode usar, crie primeiro as implementações e depois compre a Reserva do Azure para cobrir as PTUs que implementou. Esta boa prática garante que pode tirar o máximo proveito do desconto de reserva e evita o compromisso com uma reserva que não pode usar.
Os requisitos de papéis e políticas de inquilino no Azure para comprar uma reserva são diferentes dos requisitos para criar um recurso de implementação ou um recurso Foundry. Verifique a autorização para comprar reservas antes de o fazer. Consulte Foundry Reserva de Débito Aprovisionado para mais detalhes.

Dimensione a sua reserva de throughput provisionada pela Foundry

Os montantes das PTUs nas aquisições de reservas são independentes das PTUs alocadas em quotas ou utilizadas em implantações. É possível comprar uma reserva para mais PTUs do que as que tem em quota, ou pode implementar para a região, modelo ou versão desejada. Os créditos por compra excessiva de uma reserva são limitados, e os clientes devem tomar medidas para garantir que mantêm o tamanho das reservas alinhado com as suas PTUs implementadas.

A melhor prática é comprar sempre uma reserva depois de as missões terem sido criadas. Isto protege contra a compra de uma reserva e depois descobrir que a capacidade necessária não está disponível para a região ou modelo desejado.

As reservas para implementações globais, de zona de dados e regionais não são intercambiáveis. Precisa de comprar uma reserva separada para cada tipo de destacamento.

Para ajudar os clientes a comprar os montantes corretos de reserva. O número total de PTUs numa subscrição e região que podem ser cobertas por uma reserva está listado na página de Quotas do portal Foundry. Veja a mensagem "PTUs disponíveis para reserva."

Gerir reservas do Azure

Depois de criar uma reserva, monitorize-a através do portal de reservas do Azure ou do Azure Monitor para garantir que a reserva está a receber a utilização que espera. Para saber mais sobre como gerir e monitorizar reservas no Azure, consulte estes artigos:

Comentários

Esta página foi útil?

Last updated on 2026-05-08

Custos e faturação da unidade de taxa de transferência provisionada (PTU) (clássico)

Unidades de throughput provisionadas

Faturação de capacidade provisionada

Quota independente do modelo

Utilização horária

Eliminar as implantações de PTU

Qual a largura de banda por PTU que obténs de cada modelo

Exceções à taxa de transferência de entrada e saída

Modelos mais recentes do Azure OpenAI

Modelos anteriores do Azure OpenAI

Diretamente dos modelos Azure

Fogo de Artifício nos modelos do Microsoft Foundry (Pré-visualização)

Determinar os requisitos de PTU para uma carga de trabalho

Obter a quota da PTU

Mínimos por modelo da PTU

Estimar unidades de taxa de transferência provisionadas e custo

Reservas do Azure para Largura de Banda Provisionada pela Foundry

Dimensione a sua reserva de throughput provisionada pela Foundry

Gerir reservas do Azure

Conteúdo relacionado

Comentários

Recursos adicionais