Custos e faturação da unidade de taxa de transferência provisionada (PTU)

Use este artigo para saber mais sobre os custos associados às unidades de capacidade provisionada (PTU). Para uma visão geral da oferta de throughput provisionado, consulte o que é throughput provisionado?. Quando estiver pronto para se inscrever na oferta de largura de banda provisionada, consulte o guia de introdução.

Nota

Nos casos de chamada de funções e de uso de agentes, o uso de tokens pode ser variável. Deve compreender em detalhe o seu uso esperado de Tokens Por Minuto (TPM) antes de migrar cargas de trabalho para PTU.

Unidades de throughput provisionadas

As unidades de throughput provisionado (PTU) são unidades genéricas de capacidade de processamento de modelos que pode usar para dimensionar implementações provisionadas e alcançar a largura de banda necessária para processar prompts e gerar conclusões. As unidades de rendimento provisionadas são atribuídas a uma subscrição como quota. Cada quota é específica para uma região e define o número máximo de PTUs que podem ser atribuídas a implementações nessa subscrição e região.

Faturação de débito provisionada

Microsoft Foundry Regional Provisioned Throughput, Data Zone Provisioned Throughput e Global Provisioned Throughput são faturados por hora com base no número de PTUs implementadas, com desconto de longo prazo substancial disponível através da compra de reservas do Azure.

O modelo de faturação horária é útil para necessidades de implementação de curto prazo, como validar novos modelos ou adquirir capacidade para um hackathon.  No entanto, os descontos fornecidos pela reserva Azure para Foundry Regional Provisioned, Data Zone Provisioned e Global Provisioned são consideráveis e a maioria dos clientes com uso consistente a longo prazo achará que um modelo reservado é uma proposta de melhor valor.

Reservas do Azure são um mecanismo de desconto financeiro aplicado a contadores de faturação, não a interações de serviço (como a implementação). Reservas e implantações estão ligadas de forma frouxa para proporcionar flexibilidade. Crias ou eliminas implementações e reservas de forma independente. Esta abordagem permite-lhe alterar recursos, subscrições ou implementações sem alterar a estrutura de faturação.

Ordem recomendada de operações para evitar cargas indesejadas:

  1. Use o Foundry para implementar o seu modelo numa região com quota disponível. Este passo confirma que a capacidade existe, uma vez que quota não é igual a capacidade.
  2. Após a implementação, partilhe detalhes de implementação, incluindo o tipo de implementação (Global Provisioned, Data Zone Provisioned ou Regional Provisioned), região e subscrição, com o seu administrador.
  3. O administrador utiliza estes dados para comprar uma nova reserva que corresponda aos detalhes da implementação, ou para verificar se uma reserva existente corresponde, para receber a tarifa com desconto.

Nota

A Foundry forneceu aos clientes integrados antes da atualização de autoatendimento de agosto um modelo de compra chamado modelo Compromisso. Estes clientes podem continuar a usar este modelo de compra mais antigo juntamente com o modelo de compra por hora/reserva. O modelo Commitment não está disponível para novos clientes nem para certos modelos novos lançados após agosto de 2024. Para detalhes sobre o modelo de compra da Commitment e opções de coexistência e migração, consulte a Atualização de Agosto Provisionada pela Foundry.

Quota independente do modelo

Ao contrário da quota de Tokens Por Minuto (TPM) utilizada por outras ofertas da Foundry, as PTUs são independentes de qualquer modelo. As PTUs podem ser usadas para implementar quaisquer modelos suportados alojados e vendidos diretamente pela Microsoft na região.

Diagrama de quota independente do modelo com um conjunto de PTUs disponível para múltiplos modelos OpenAI do Azure.

A quota para implementações provisionadas aparece no Foundry como os seguintes tipos de implementação: provisionado global, provisionado por zona de dados e provisionado regional.

Nota

A quota não garante capacidade. Implemente o seu modelo no Foundry antes de comprar uma reserva correspondente no portal Azure.

Tipo de implantação Nome da quota
Provisionamento Regional Unidade Regional de Capacidade Abastecida
Global Provisionado Unidade Global de Débito Provisionado
Zona de dados Provisionada Unidade de Taxa de Transferência Provisionada por Zona de Dados

Pode encontrar detalhes sobre quotas para implementações provisionadas no portal Microsoft Foundry, na secção Operate, no separador Quota.

Utilização horária

As implementações Provisionadas Regionalmente, Provisionadas na Zona de Dados e Provisionadas Globalmente são cobradas à taxa horária ($/PTU/hr) com base no número de PTUs implantados.  Por exemplo, uma implantação de 300 PTU será cobrada pela hora multiplicada por 300.  Todos os preços dos modelos Foundry estão disponíveis na Calculadora de Preços do Azure.

Se uma implantação estiver presente durante parte de uma hora, receberá uma cobrança proporcional com base no número de minutos em que foi implantada durante essa hora.  Por exemplo, uma implantação que exista durante 15 minutos durante uma hora receberá 1/4 da cobrança horária. 

Se o tamanho da implantação for alterado, os custos da implementação serão ajustados para corresponder ao novo número de PTUs.

Um diagrama que mostra a faturação horária.

Pagar por implantações provisionadas regionais, provisionadas em zonas de dados e globalmente provisionadas por hora é ideal para cenários de implementação de curto prazo.  Por exemplo: avaliação comparativa de qualidade e desempenho de novos modelos, ou aumentar temporariamente a capacidade da PTU para cobrir um evento tecnológico, tal como um hackathon. 

No entanto, os clientes que necessitam de utilização a longo prazo de implementações provisionadas regionalmente, provisionadas em zona de dados e globalmente podem, no entanto, pagar significativamente menos por mês ao adquirir um desconto de prazo através de Azure Reservas conforme discutido mais adiante no artigo.

Importante

Não é recomendado escalar as implantações em produção com base no tráfego recebido e pagar por elas unicamente numa base horária. Existem duas razões para isso:

  • As poupanças de custos obtidas ao adquirir Azure Reservations para "Foundry Provisioned Throughput", "Data Zone Provisioned" e "Global Provisioned" são significativas. Em muitos casos, será menos dispendioso manter uma implementação dimensionada para o volume total de produção paga através de uma reserva do que escalar a implementação com o tráfego recebido.
  • Ter quotas provisionadas (PTU) não utilizadas não garante que a capacidade estará disponível para suportar um aumento do tamanho da implantação quando necessário. A quota limita o número máximo de PTUs que podem ser implantadas, mas não é uma garantia de capacidade. A capacidade provisionada para cada região e modelo muda dinamicamente ao longo do dia e pode não estar disponível quando necessário. Por isso, recomenda-se manter uma implantação permanente para cobrir as suas necessidades de tráfego (paga através de uma reserva).

Eliminar implantações da PTU

Importante

As cobranças por implementações num recurso eliminado continuam até que o recurso seja eliminado. Para evitar cargas indesejadas, elimine a implementação de um recurso antes de o eliminar. No entanto, se já apagaste o recurso primeiro, podes recuperá-lo ou eliminá-lo. Para mais informações, consulte recuperar ou purgar recursos OpenAI eliminados do Azure.

Eliminar uma implantação não cancela nem altera nenhuma reserva da PTU. As reservas não suportam eliminação. Pode usar o portal do Azure para cancelar ou trocar reservas manualmente, e estas opções podem acarretar taxas adicionais.

Use estes passos para eliminar uma implementação provisionada e evitar encargos indesejados.

  1. Apague a implementação no portal Microsoft Foundry.
  2. Se planeias remover o recurso de IA do Azure, apaga primeiro as implementações e depois apaga o recurso. Limpa o recurso para parar as cobranças.
  3. Aceda à página Reservas no portal Azure para gerir as reservas. No portal Azure, pode comprar, cancelar ou trocar reservas para alinhar com as implementações atuais.

Qual é o throughput por PTU que obténs de cada modelo

A quantidade de taxa de transferência (medida em tokens por minuto ou TPM) que uma instalação recebe por PTU é uma função dos tokens de entrada e saída num dado minuto. Gerar tokens de saída requer mais processamento do que tokens de entrada. A começar pelos modelos GPT 4.1 e posteriores, o sistema geralmente alinha-se com a norma global de preços na relação entre os tokens de entrada e saída, com exceções para alguns modelos. Para todas as implementações, os tokens em cache são deduzidos 100% da utilização.

Por exemplo, para o gpt-5, um token de saída conta como oito tokens de entrada para o limite de utilização, que corresponde ao preço. Para outros modelos, como o gpt-4.1, um token de saída conta como quatro tokens de entrada. Modelos mais antigos usam uma proporção diferente.

Exceções à taxa de transferência de entrada e saída

O sistema permite exceções à relação padrão de tokens de entrada/saída para certos modelos. Por exemplo, com o Llama-3.3-70B-Instruct, um token de saída conta como quatro tokens de entrada para o seu limite de utilização. Esta razão difere da razão de preços padrão global entre tokens de entrada e saída. Para ver os preços de entrada e saída do modelo, veja preços para modelos Llama.

Modelos mais recentes do Azure OpenAI

Nota

GPT-5.4, GPT-4.1, GPT-4.1-mini e GPT-4.1-nano não suportam contexto longo (pedidos estimados em mais de 128k tokens de prompt).

Tema GPT-5.5 GPT-5.4 gpt-5.3-codex GPT-5.2 GPT-5.2-codex GPT-5.1 gpt-5.1-codex GPT-5 GPT-5-mini GPT-4.1 GPT-4.1-mini GPT-4.1-Nano o3 O4-mini
Zona global e de dados provisionada com implantação mínima 15 15 15 15 15 15 15 15 15 15 15 15 15 15
Incremento global e de escala provisionada por zonas de dados 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Implementação mínima regional provisionada 50 50 50 50 50 50 50 50 25 50 25 25 50 25
Incremento da escala regional de provisões 50 50 50 50 50 50 50 50 25 50 25 25 50 25
TPM de entrada por PTU 1,200 2,400 3,400 3,400 3,400 4,750 4,750 4,750 23.750 3,000 14,900 59.400 3,000 5,400
Valor Alvo de Latência 99% > 100 fichas por segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 80 fichas por segundo* 99% > 80 fichas por segundo* 99% > 90 tokens por segundo* 99% > 100 fichas por segundo* 99% > 80 fichas por segundo* 99% > 90 tokens por segundo*

* Calculado como a latência de pedido p50 com base em intervalos de 5 minutos.

Modelos anteriores do Azure OpenAI

Tema GPT-4O GPT-4O-mini O3-mini o1
Zona global e de dados provisionada com implantação mínima 15 15 15 15
Incremento global e de escala provisionada por zonas de dados 5 5 5 5
Implementação mínima regional provisionada 50 25 25 25
Incremento da escala regional de provisões 50 25 25 50
TPM de entrada por PTU 2,500 37,000 2,500 230
Valor Alvo de Latência 99% > 25 tokens por segundo* 99% > 33 tokens por segundo* 99% > 66 tokens por segundo* 99% > 25 tokens por segundo*

* Calculado como a latência média dos pedidos por minuto ao longo do mês.

Diretamente dos modelos Azure

Tema Llama-3.3-70B-Instruct DeepSeek-R1 DeepSeek-V3-0324 DeepSeek-R1-0528
Zona global e de dados provisionada com implantação mínima 100 100 100 100
Incremento global e de escala provisionada por zonas de dados 100 100 100 100
Implementação mínima regional provisionada NA NA NA NA
Incremento da escala regional de provisões NA NA NA NA
TPM de entrada por PTU 8.4501 4,000 4,000 4,000
Valor Alvo de Latência 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo*

* Calculado como a latência média dos pedidos por minuto ao longo do mês.

1 Para o Llama-3.3-70B-Instruct, um token de saída conta como quatro tokens de entrada para o seu limite de utilização. Esta razão difere da razão de preços padrão global entre tokens de entrada e saída. Para mais detalhes, veja Exceções à taxa de transferência de entrada e saída.

Fogo de Artifício nos modelos do Microsoft Foundry (Pré-visualização)

Os seguintes modelos Fireworks na Microsoft Foundry suportam atualmente o débito provisionado.

Tema GPT-OSS-120B Kimi K2 Instruct 0905 Pensamento Kimi K2 Kimi K2.5 DeepSeek v3.1 DeepSeek v3.2 Qwen3 14B MiniMax 2.5 GLM-5 GLM-4.7
Zona global e de dados provisionada com implantação mínima 80 500 500 800 800 1200 80 400 700 800
Incremento global e de escala provisionada por zonas de dados 40 275 275 400 400 600 40 200 350 400
TPM de entrada por PTU 13,500 1,250 700 530 1,050 1,500 4,800 3,000 3,500 3,000
Valor Alvo de Latência 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo*

* Calculado como a latência média dos pedidos por minuto ao longo do mês.

Determinar os requisitos da PTU para uma carga de trabalho

Determinar o número correto de unidades de rendimento (PTU) provisionadas para a carga de trabalho é um passo essencial para otimizar o custo e o desempenho.

As PTUs representam uma quantidade de capacidade de processamento de modelos. Tal como no seu computador ou bases de dados, diferentes cargas de trabalho ou pedidos ao modelo consumirão diferentes quantidades da capacidade de processamento subjacente. A conversão das necessidades de throughput para PTUs pode ser aproximada usando dados históricos de utilização de tokens ou estimativas de formas de chamada (tokens de entrada, tokens de saída e pedidos por minuto), conforme descrito na documentação de desempenho e latência .

Algumas considerações de alto nível:

  • As gerações necessitam de mais capacidade do que os prompts
  • Para GPT-4o e modelos posteriores, o TPM por PTU é definido separadamente para tokens de entrada e saída. Para modelos mais antigos, chamadas maiores são progressivamente mais caras de processar. Por exemplo, 100 chamadas com um tamanho de prompt de 1000 tokens requerem menos capacidade do que uma chamada com um tamanho de prompt de 100.000 tokens. A hierarquização significa que a distribuição destas formas de chamadas é importante para a capacidade de processamento global. Padrões de tráfego com uma distribuição ampla que inclui algumas chamadas grandes podem experienciar menor taxa de transferência por PTU do que uma distribuição mais restrita com os mesmos tamanhos médios de prompts e tokens de conclusão.

Obter a quota da PTU

Os clientes precisam de pedir quota através do Link de Pedido de Quota.

Se forem necessárias mais quotas, também deve solicitar quotas através do link na secção Microsoft FoundryOperar no painel >Quota. O formulário permite ao cliente solicitar um aumento da quota de PTU especificada para uma determinada região. O cliente recebe um email no endereço incluído assim que o pedido é aprovado, normalmente dentro de dois dias úteis.

Mínimos por Modelo da PTU

A implementação mínima da PTU, os incrementos e a capacidade de processamento associados a cada unidade variam consoante o tipo e a versão do modelo. Consulte a tabela acima para mais informações.

Reservas do Azure para a Taxa de Transferência Provisionada da Foundry

Descontos para além do preço de utilização por hora podem ser obtidos adquirindo uma Reserva Azure para Foundry Regional Provisioned, Data Zone Provisioned e Global Provisioned. Uma Reserva do Azure é um mecanismo de desconto por período compartilhado por muitos produtos do Azure. Por exemplo, Compute e Cosmos DB. Para Foundry Regional Provisioned, Data Zone Provisioned e Global Provisioned, a reserva oferece um desconto em troca do compromisso de pagamento por um número fixo de PTUs por um período de um mês ou de um ano.

  • Azure As Reservas são adquiridas através da página de Reservas no portal Azure.

  • As reservas são adquiridas regionalmente e podem ser ajustadas de forma flexível para cobrir o uso de um grupo de implementações. Os escopos das reservas incluem:

    • Grupos de recursos individuais ou subscrições

    • Um grupo de subscrições num Grupo de Gestão

    • Todas as subscrições numa conta de faturação

  • O desconto aplica-se quando o tipo de implementação (Regional/Zona de Dados/Global), a Região e o âmbito de Reserva (subscrição ou grupo de recursos) correspondem à implementação em curso. A correspondência não é feita por modelo ou ID de implementação. Múltiplas implementações dentro do âmbito podem consumir a mesma reserva até ao seu limite de quantidade de PTU.

  • Novas reservas podem ser adquiridas para cobrir o mesmo âmbito das reservas existentes, permitindo descontos em novas implantações provisionadas. O âmbito das reservas existentes pode também ser atualizado a qualquer momento sem penalização, por exemplo para cobrir uma nova subscrição.

  • As reservas para implementações Globais, Zona de Dados e Regionais não são intercambiáveis. Precisa de comprar uma reserva separada para cada tipo de destacamento.

  • As reservas podem ser canceladas após a compra, mas os créditos são limitados.

  • Se o tamanho das implantações provisionadas no âmbito de uma reserva exceder o montante da reserva, o excesso é cobrado à tarifa horária. Por exemplo, se existirem implantações no valor de 250 PTUs dentro do âmbito de uma reserva de 200 PTU, serão cobradas 50 PTUs por hora até que o tamanho das implantações seja reduzido para 200 PTU, ou seja criada uma nova reserva para cobrir as restantes 50.

  • As reservas garantem um preço reduzido para o período selecionado.  Não reservam capacidade para o serviço nem asseguram que estará disponível quando uma implementação for criada. É altamente recomendado que os clientes criem implantações antes de adquirir uma reserva para evitar a compra excessiva de reservas.

Importante

  • A disponibilidade de capacidade para implementações de modelos é dinâmica e muda frequentemente entre regiões e modelos. Para evitar a compra de uma reserva para mais PTUs do que pode usar, crie primeiro as implementações e depois compre a Reserva do Azure para cobrir as PTUs que implementou. Esta boa prática garante que pode aproveitar ao máximo o desconto da reserva e protege-o de comprometer-se com uma reserva que não pode usar.

  • Os requisitos de funções e políticas de locatário no Azure para comprar uma reserva são diferentes dos necessários para criar um recurso de implementação ou um recurso do Foundry. Verifique a autorização para comprar reservas antes de o fazer. Consulte Reserva de Capacidade Provisionada da Foundry para mais detalhes.

Dimensione a sua reserva de throughput provisionada pela Foundry

As quantias de PTUs nas compras de reserva são independentes das PTUs alocadas em quotas ou utilizadas em implementações. É possível comprar uma reserva para mais PTUs do que as que tem em quota, ou pode implementar para a região, modelo ou versão desejada. Os créditos por compra excessiva de uma reserva são limitados, e os clientes devem tomar medidas para garantir que mantêm o tamanho das reservas alinhado com as suas PTUs implementadas.

A melhor prática é comprar sempre uma reserva depois de as missões terem sido criadas. Isto protege contra a compra de uma reserva e depois descobrir que a capacidade necessária não está disponível para a região ou modelo desejado.

As reservas para implementações Globais, Zona de Dados e Regionais não são intercambiáveis. Precisa de comprar uma reserva separada para cada tipo de destacamento.

Gerir reservas do Azure

Depois de criar uma reserva, monitorize-a através do portal de reservas do Azure ou do Azure Monitor para garantir que a reserva está a receber a utilização que espera. Para saber mais sobre como gerir e monitorizar reservas no Azure, consulte estes artigos: