Custos e faturação da unidade de taxa de transferência provisionada (PTU) (clássico)

Atualmente a ver:Portal Foundry (clássica) versão - Mudar para a versão do novo Portal Foundry

Utilize este artigo para saber mais sobre os custos associados às unidades de débito provisionadas (PTU). Para ver uma visão geral da oferta de throughput provisionado, consulte o que é throughput provisionado?. Quando estiver pronto para se inscrever na oferta de throughput provisionado, consulte o guia para começar.

Nota

Nos casos de chamada de funções e de uso de agentes, o uso de tokens pode ser variável. Deve compreender em detalhe o seu uso esperado de Tokens Por Minuto (TPM) antes de migrar as suas cargas de trabalho para PTU.

Unidades de throughput provisionadas

As unidades de throughput provisionado (PTU) são unidades genéricas de capacidade de processamento de modelos que pode utilizar para dimensionar implantações provisionadas e obter o throughput necessário para processar prompts e gerar conclusões. As unidades de capacidade provisionadas são atribuídas a uma subscrição como limite. Cada quota é específica para uma região e define o número máximo de PTUs que podem ser atribuídas a implementações nessa subscrição e região.

Faturação de capacidade provisionada

Microsoft Foundry Regional Provisioned Throughput, Data Zone Provisioned Throughput e Global Provisioned Throughput são faturados por hora com base no número de PTUs implementadas, com um desconto substancial por prazo disponível na compra de reservas do Azure.

O modelo de faturação horária é útil para necessidades de implementação de curto prazo, como validar novos modelos ou adquirir capacidade para um hackathon.  No entanto, os descontos fornecidos pela reserva Azure para Foundry Regional Provisioned, Data Zone Provisioned e Global Provisioned são consideráveis e a maioria dos clientes com uso consistente a longo prazo achará que um modelo reservado é uma proposta de melhor valor.

Reservas do Azure são um mecanismo de desconto financeiro aplicado a medidores de faturação, não a interações de serviço (como a implementação de serviços). Reservas e implantações estão ligadas de forma frouxa para proporcionar flexibilidade. Crias ou eliminas implementações e reservas de forma independente. Esta abordagem permite-lhe alterar recursos, subscrições ou implementações sem alterar a estrutura de faturação.

Ordem recomendada de operações para evitar cargas indesejadas:

  1. Use o Foundry para implementar o seu modelo numa região com quota disponível. Este passo confirma que a capacidade existe, uma vez que quota não é igual a capacidade.
  2. Após a implementação, partilhe detalhes de implementação, incluindo o tipo de implementação (Global Provisioned, Data Zone Provisioned ou Regional Provisioned), região e subscrição, com o seu administrador.
  3. O administrador utiliza estes dados para comprar uma nova reserva que corresponda aos detalhes da implementação, ou para verificar se uma reserva existente corresponde, para receber a tarifa com desconto.

Nota

A Foundry forneceu aos clientes integrados antes da atualização de autoatendimento de agosto um modelo de compra chamado modelo Compromisso. Estes clientes podem continuar a usar este modelo de compra mais antigo juntamente com o modelo de compra por hora/reserva. O modelo Commitment não está disponível para novos clientes nem para certos modelos novos lançados após agosto de 2024. Para detalhes sobre o modelo de compra da Commitment e opções de coexistência e migração, consulte a Atualização de Agosto Provisionada pela Foundry.

Quota independente do modelo

Ao contrário da quota de Tokens Por Minuto (TPM) usada por outras ofertas da Foundry, as PTUs são independentes do modelo. As PTUs podem ser usadas para implementar quaisquer modelos suportados alojados e vendidos diretamente pela Microsoft na região.

Diagrama de quotas independentes do modelo com um conjunto de PTUs disponíveis para múltiplos modelos OpenAI do Azure.

A quota para implementações provisionadas aparece no Foundry como os seguintes tipos de implementação: provisionado global, provisionado por zona de dados e provisionado regional.

Nota

A quota não garante capacidade. Implemente o seu modelo no Foundry antes de comprar uma reserva correspondente no portal Azure.

Tipo de implantação Nome da quota
Provisionamento Regional Unidade Regional de Capacidade Abastecida
Global Provisionado Unidade Global de Débito Provisionado
Zona de dados Provisionada Unidade de Taxa de Transferência Provisionada por Zona de Dados

Pode consultar detalhes sobre quotas para implantações provisionadas no portal Foundry, na página de Quotas do Centro de Gestão.

Captura de ecrã da UI de quotas para o Foundry provisionada.

Utilização horária

As implementações Regional Provisionadas, Zona de Dados Provisionadas e Global Provisionadas são cobradas por hora ($/PTU/hr) com base no número de PTUs implantados.  Por exemplo, uma implantação de 300 PTU será cobrada à taxa horária multiplicada por 300.  Todos os preços dos modelos Foundry estão disponíveis na Calculadora de Preços do Azure.

Se uma implementação existir durante uma hora parcial, receberá uma cobrança proporcional com base no número de minutos em que foi utilizada durante essa hora.  Por exemplo, uma implantação que esteja ativa por 15 minutos numa hora incorrerá em 1/4 da cobrança horária. 

Se o tamanho da implantação for alterado, os custos da implementação serão ajustados para corresponder ao novo número de PTUs.

Um diagrama que mostra a faturação horária.

Para cenários de implementação de curto prazo, pagar por implantações regionais, por zonas de dados e por provisionamentos globais numa base horária é ideal.  Por exemplo: avaliação de qualidade e desempenho de novos modelos, ou aumentar temporariamente a capacidade da PTU para cobrir um evento como um hackathon. 

No entanto, os clientes que necessitam de utilização a longo prazo de implementações provisionadas regionalmente, provisionadas em zona de dados e globalmente podem, no entanto, pagar significativamente menos por mês ao adquirir um desconto de prazo através de Azure Reservas conforme discutido mais adiante no artigo.

Importante

Não é recomendado escalar as implantações em produção de acordo com o tráfego recebido e pagar por elas apenas por hora. Existem duas razões para isso:

  • As poupanças de custos obtidas ao adquirir Azure Reservations para Foundry Provisioned Throughput, Data Zone Provisioned e Global Provisioned são significativas. Em muitos casos, será menos dispendioso manter uma implementação dimensionada para o volume total de produção, paga através de uma reserva, do que escalar a implementação consoante o aumento do tráfego recebido.
  • Ter quotas provisionadas (PTU) não utilizadas não garante que a capacidade estará disponível para suportar um aumento do tamanho da implantação quando necessário. A quota limita o número máximo de PTUs que podem ser implantadas, mas não é uma garantia de capacidade. A capacidade provisionada para cada região e modelo muda dinamicamente ao longo do dia e pode não estar disponível quando necessário. Por isso, recomenda-se manter uma implantação permanente para cobrir as suas necessidades de tráfego (paga através de uma reserva).

Eliminar as implantações de PTU

Importante

As cobranças por implementações num recurso eliminado continuam até que o recurso seja eliminado. Para evitar cargas indesejadas, elimine a implementação de um recurso antes de o eliminar. No entanto, se já apagaste o recurso primeiro, podes recuperá-lo ou eliminá-lo. Para mais informações, consulte recuperar ou eliminar recursos OpenAI do Azure eliminados.

Eliminar uma implantação não cancela nem altera qualquer reserva de PTU. As reservas não suportam remoção. Pode usar o portal do Azure para cancelar ou trocar reservas manualmente, e estas opções podem acarretar taxas adicionais.

Use estes passos para eliminar uma implementação provisionada e evitar encargos indesejados.

  1. Apague a implementação no portal Foundry.
  2. Se planeias remover o recurso de IA do Azure, apaga primeiro as implementações e depois apaga o recurso. Limpa o recurso para parar os custos.
  3. Aceda à página Reservas no portal Azure para gerir as reservas. No portal Azure, pode comprar, cancelar ou trocar reservas para alinhar com as implementações atuais.

Qual a largura de banda por PTU que obténs de cada modelo

A quantidade de débito (medida em tokens por minuto ou TPM) que uma implementação recebe por PTU depende dos tokens de entrada e saída em um determinado minuto. Gerar tokens de saída requer mais processamento do que tokens de entrada. A partir dos modelos GPT 4.1 e posteriores, o sistema geralmente alinha-se com a razão de preços padrão global entre tokens de entrada e saída, com exceções para alguns modelos. Para todas as implementações, os tokens em cache são deduzidos 100% da utilização.

Por exemplo, para o gpt-5, um token de saída conta como oito tokens de entrada para o limite de utilização, que corresponde ao preço. Para outros modelos, como o gpt-4.1, um token de saída conta como quatro tokens de entrada. Modelos mais antigos usam uma proporção diferente.

Para uma compreensão mais profunda de como diferentes proporções de tokens de entrada e saída impactam o rendimento necessário para a carga de trabalho, consulte a calculadora de quotas da Foundry PTU.

Exceções à taxa de transferência de entrada e saída

O sistema permite exceções à relação padrão de tokens de entrada/saída para certos modelos. Por exemplo, com o Llama-3.3-70B-Instruct, um token de saída conta como quatro tokens de entrada para o seu limite de utilização. Esta razão difere da razão de preços padrão global entre tokens de entrada e saída. Para ver os preços de entrada e saída do modelo, veja preços para modelos Llama.

Modelos mais recentes do Azure OpenAI

Nota

GPT-5.4, GPT-4.1, GPT-4.1-mini e GPT-4.1-nano não suportam contexto longo (solicitações estimadas em mais de 128k tokens de prompt).

Tema GPT-5.5 GPT-5.4 gpt-5.3-codex GPT-5.2 GPT-5.2-codex GPT-5.1 gpt-5.1-codex GPT-5 GPT-5-mini GPT-4.1 GPT-4.1-mini GPT-4.1-Nano o3 O4-mini
Zona de dados global com implementação mínima provisionada 15 15 15 15 15 15 15 15 15 15 15 15 15 15
Incremento de escala global e nas zonas de dados provisionadas 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Implementação mínima regional provisionada 50 50 50 50 50 50 50 50 25 50 25 25 50 25
Incremento da escala regional de provisões 50 50 50 50 50 50 50 50 25 50 25 25 50 25
TPM de entrada por PTU 1,200 2,400 3,400 3,400 3,400 4,750 4,750 4,750 23.750 3,000 14,900 59,400 3,000 5,400
Valor Alvo de Latência 99% > 100 fichas por segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 80 fichas por segundo* 99% > 80 fichas por segundo* 99% > 90 tokens por segundo* 99% > 100 fichas por segundo* 99% > 80 fichas por segundo* 99% > 90 tokens por segundo*

* Calculado como latência de pedido p50 por 5 minutos.

Modelos anteriores do Azure OpenAI

Tema GPT-4O GPT-4O-mini O3-mini o1
Zona de dados global com implementação mínima provisionada 15 15 15 15
Incremento de escala global e nas zonas de dados provisionadas 5 5 5 5
Implementação mínima regional provisionada 50 25 25 25
Incremento da escala regional de provisões 50 25 25 50
TPM de entrada por PTU 2,500 37,000 2,500 230
Valor Alvo de Latência 99% > 25 tokens por segundo* 99% > 33 tokens por segundo* 99% > 66 tokens por segundo* 99% > 25 tokens por segundo*

* Calculado como a latência média dos pedidos por minuto ao longo do mês.

Diretamente dos modelos Azure

Tema Llama-3.3-70B-Instruct DeepSeek-R1 DeepSeek-V3-0324 DeepSeek-R1-0528
Zona de dados global com implementação mínima provisionada 100 100 100 100
Incremento de escala global e nas zonas de dados provisionadas 100 100 100 100
Implementação mínima regional provisionada NA NA NA NA
Incremento da escala regional de provisões NA NA NA NA
TPM de entrada por PTU 8.4501 4,000 4,000 4,000
Valor Alvo de Latência 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo*

* Calculado como a latência média dos pedidos por minuto ao longo do mês.

1 Para o Llama-3.3-70B-Instruct, um token de saída conta como quatro tokens de entrada em relação ao seu limite de utilização. Esta razão difere da razão de preços padrão global entre tokens de entrada e saída. Para mais detalhes, veja Exceções à razão de rendimento de entrada e saída.

Para uma lista completa, consulte a calculadora Foundry.

Fogo de Artifício nos modelos do Microsoft Foundry (Pré-visualização)

Os modelos Fireworks listados abaixo na Microsoft Foundry atualmente suportam largura de banda provisionada.

Tema GPT-OSS-120B Kimi K2 Instruct 0905 Pensamento Kimi K2 Kimi K2.5 Kimi K2.6 DeepSeek v3.1 DeepSeek v3.2 Qwen3 14B MiniMax 2.5 GLM-5 GLM-4.7
Desdobramento mínimo global provisionado 80 500 500 800 800 800 1200 80 400 700 800
Incremento global de escala provisionada 40 275 275 400 400 400 600 40 200 350 400
TPM de entrada por PTU 13,500 1,250 700 530 2.000 1,050 1,500 4,800 3,000 3,500 3,000
Valor Alvo de Latência 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo* 99% > 50 Tokens por Segundo*

* Calculado como a latência média dos pedidos por minuto ao longo do mês.

Determinar os requisitos de PTU para uma carga de trabalho

Determinar o número correto de unidades de débito (PTU) provisionadas para a sua carga de trabalho é um passo essencial para otimizar o desempenho e o custo.

As PTUs representam uma quantidade de capacidade de processamento de modelos. Tal como no seu computador ou bases de dados, diferentes cargas de trabalho ou pedidos ao modelo consumirão diferentes quantidades da capacidade de processamento subjacente. A conversão das necessidades de throughput em PTUs pode ser aproximada usando dados históricos de utilização de tokens ou estimativas de perfis de chamadas (tokens de entrada, tokens de saída e pedidos por minuto), conforme descrito na documentação de desempenho e latência.

Para simplificar este processo, pode usar a calculadora Foundry para dimensionar formas específicas de carga de trabalho.

Algumas considerações de alto nível:

  • As gerações requerem mais capacidade do que os prompts
  • Para GPT-4o e modelos posteriores, o TPM por PTU é definido separadamente para tokens de entrada e saída. Para modelos mais antigos, chamadas maiores ficam progressivamente mais caras de processar. Por exemplo, 100 chamadas com um pedido de 1000 tokens requerem menos capacidade do que uma chamada com 100.000 tokens no prompt. Este escalonamento significa que a distribuição destas formas de chamadas é importante para o throughput global. Padrões de tráfego com uma distribuição ampla que inclui algumas grandes solicitações podem ter uma taxa de transferência por Unidade de Transmissão de Protocolo (PTU) menor do que uma distribuição mais restrita, mesmo com os mesmos tamanhos médios de prompts e tokens de conclusão.

Obter a quota da PTU

Os clientes precisam de pedir quota através do Link de Pedido de Quota.

Se forem necessárias mais quotas, também precisa de solicitar quotas através do link no centro de quotas no centro de gestão da Foundry. O formulário permite ao cliente solicitar um aumento da quota de PTU especificada para uma determinada região. O cliente recebe um email no endereço incluído assim que o pedido é aprovado, normalmente dentro de dois dias úteis.

Mínimos por modelo da PTU

A implementação mínima da PTU, os incrementos e a capacidade de processamento associados a cada unidade variam consoante o tipo e a versão do modelo. Consulte a tabela acima para mais informações.

Estimar unidades de taxa de transferência provisionadas e custo

Para obter uma estimativa rápida da sua carga de trabalho usando o TPM de entrada e saída, aproveite o planeador de capacidade incorporado na secção de detalhes de implementação do ecrã de diálogo de implementação. O planeador de capacidade incorporado faz parte do fluxo de trabalho de implementação para ajudar a simplificar o dimensionamento e a alocação de quota para uma implementação de PTU para uma carga de trabalho específica. Para mais informações sobre como identificar e estimar dados de TPM, consulte as recomendações na nossa documentação de desempenho e latência.

Para usar o planeador de capacidade, vá ao portal Foundry e selecione o botão Implementações . Depois seleciona Deploy model.

Uma captura de ecrã do ecrã de implementação do modelo.

Escolha um modelo e clique em Confirmar. Selecione um tipo de implementação de largura de banda de provisionamento. Depois de preencher os dados TPM de entrada e saída na calculadora de capacidade incorporada, selecione o botão Calcular para visualizar a sua recomendação de alocação da PTU.

Uma captura de ecrã da calculadora de capacidade PTU do fluxo de trabalho de implementação.

Para estimar a capacidade provisionada usando dados ao nível do pedido, abra o planeador de capacidade no portal Foundry. O calculador de capacidade está no Centro de Gestão>Quota>Débito Provisionado.

A opção de Débito Provisionado e a calculadora só estão disponíveis em certas regiões dentro do painel de Cotas; se não vires esta opção, definir a região de quota para Suécia Central tornará essa opção disponível. Introduza os seguintes parâmetros com base na sua carga de trabalho.

Entrada Descrição
Modelo Modelo que planeias usar. Por exemplo: GPT-4
Versão Versão do modelo que planeia usar, por exemplo 0614
Chamadas de pico por minuto O número de chamadas por minuto que se espera que sejam enviadas ao modelo
Tokens em chamada de prompt O número de tokens no prompt para cada chamada ao modelo. Chamadas com prompts maiores utilizam mais o recurso de implantação da PTU. Atualmente, esta calculadora assume um único valor de prompt, portanto para cargas de trabalho com grande variação. Recomendamos que compares a sua implementação com o tráfego para determinar a estimativa mais precisa da PTU necessária para a sua implementação.
Tokens na resposta do modelo O número de tokens gerados a partir de cada chamada para o modelo. Chamadas com tamanhos de geração maiores utilizam mais a implementação do PTU. Atualmente, esta calculadora assume um único valor de prompt, portanto para cargas de trabalho com grande variação. Recomendamos que compares a sua implementação com o tráfego para determinar a estimativa mais precisa da PTU necessária para a sua implementação.

Depois de preencher os detalhes necessários, selecione o botão Calcular na coluna de saída.

Os valores na coluna de saída são o valor estimado das unidades PTU necessárias para as entradas de carga de trabalho fornecidas. O primeiro valor de saída representa as unidades PTU estimadas necessárias para a carga de trabalho, arredondadas para o incremento de escala PTU mais próximo. O segundo valor de saída representa as unidades brutas estimadas de PTU necessárias para a carga de trabalho. Os totais dos tokens são calculados usando a seguinte equação: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).

Captura de ecrã da calculadora de capacidade

Nota

Os calculadores de capacidade fornecem uma estimativa baseada em critérios simples de entrada. A forma mais precisa de determinar a sua capacidade é comparar uma implementação com uma carga de trabalho representacional para o seu caso de uso.

Reservas do Azure para Largura de Banda Provisionada pela Foundry

Descontos para além do preço de utilização por hora podem ser obtidos adquirindo uma Reserva Azure para Foundry Regional Provisioned, Data Zone Provisioned e Global Provisioned. Uma Reserva do Azure é um mecanismo de desconto de prazo partilhado por muitos produtos do Azure. Por exemplo, Compute e Cosmos DB. Para Foundry Regional Provisioned, Data Zone Provisioned e Global Provisioned, a reserva oferece um desconto em troca do compromisso de pagamento de um número fixo de PTUs, seja por um período de um mês ou de um ano.

  • Azure As Reservas são adquiridas através da página de Reservas no portal Azure.

  • As reservas são adquiridas regionalmente e podem ser flexibilizadas para cobrir o uso de um grupo de implementações. Os escopos das reservas incluem:

    • Grupos de recursos individuais ou subscrições

    • Um grupo de subscrições num Grupo de Gestão

    • Todas as subscrições numa conta de faturação

  • O desconto aplica-se quando o tipo de implementação (Regional/Zona de Dados/Global), a Região e o âmbito de Reserva (subscrição ou grupo de recursos) correspondem à implementação em curso. A correspondência não é feita por modelo ou ID de implementação. Múltiplas implantações dentro do escopo podem consumir a mesma reserva até ao limite da quantidade de PTU.

  • Novas reservas podem ser adquiridas para cobrir o mesmo âmbito das reservas existentes, permitindo descontos em novas implantações provisionadas. O âmbito das reservas existentes pode também ser atualizado a qualquer momento sem penalização, por exemplo para cobrir uma nova subscrição.

  • As reservas para implementações globais, de zona de dados e regionais não são intercambiáveis. Precisa de comprar uma reserva separada para cada tipo de destacamento.

  • As reservas podem ser canceladas após a compra, mas os créditos são limitados.

  • Se o tamanho das implantações provisionadas no âmbito de uma reserva exceder o montante da reserva, o excesso é cobrado à tarifa horária. Por exemplo, se existirem implantações no valor de 250 PTUs dentro do âmbito de uma reserva de 200 PTU, serão cobradas 50 PTUs por hora até que o tamanho das implantações seja reduzido para 200 PTU, ou seja criada uma nova reserva para cobrir as restantes 50.

  • As reservas garantem um preço reduzido para o período selecionado.  Eles não reservam capacidade para o serviço nem garantem que ele estará disponível quando uma implantação for realizada. É fortemente aconselhável que os clientes criem implementações antes de adquirir uma reserva para se protegerem contra a compra excessiva de reservas.

Importante

  • A disponibilidade de capacidade para implementações de modelos é dinâmica e muda frequentemente entre regiões e modelos. Para evitar a compra de uma reserva para mais PTUs do que pode usar, crie primeiro as implementações e depois compre a Reserva do Azure para cobrir as PTUs que implementou. Esta boa prática garante que pode tirar o máximo proveito do desconto de reserva e evita o compromisso com uma reserva que não pode usar.

  • Os requisitos de papéis e políticas de inquilino no Azure para comprar uma reserva são diferentes dos requisitos para criar um recurso de implementação ou um recurso Foundry. Verifique a autorização para comprar reservas antes de o fazer. Consulte Foundry Reserva de Débito Aprovisionado para mais detalhes.

Dimensione a sua reserva de throughput provisionada pela Foundry

Os montantes das PTUs nas aquisições de reservas são independentes das PTUs alocadas em quotas ou utilizadas em implantações. É possível comprar uma reserva para mais PTUs do que as que tem em quota, ou pode implementar para a região, modelo ou versão desejada. Os créditos por compra excessiva de uma reserva são limitados, e os clientes devem tomar medidas para garantir que mantêm o tamanho das reservas alinhado com as suas PTUs implementadas.

A melhor prática é comprar sempre uma reserva depois de as missões terem sido criadas. Isto protege contra a compra de uma reserva e depois descobrir que a capacidade necessária não está disponível para a região ou modelo desejado.

As reservas para implementações globais, de zona de dados e regionais não são intercambiáveis. Precisa de comprar uma reserva separada para cada tipo de destacamento.

Para ajudar os clientes a comprar os montantes corretos de reserva. O número total de PTUs numa subscrição e região que podem ser cobertas por uma reserva está listado na página de Quotas do portal Foundry. Veja a mensagem "PTUs disponíveis para reserva."

Uma captura de ecrã que mostra a quota disponível de PTU.

Gerir reservas do Azure

Depois de criar uma reserva, monitorize-a através do portal de reservas do Azure ou do Azure Monitor para garantir que a reserva está a receber a utilização que espera. Para saber mais sobre como gerir e monitorizar reservas no Azure, consulte estes artigos: