Custos e cobrança da unidade de desempenho provisionado (PTU) (clássico)

Exibição no momento:Versão do portal do Foundry - Alternar para a versão do novo portal do Foundry

Use este artigo para saber mais sobre os custos associados às PTUs (unidades de taxa de transferência) provisionadas. Para obter uma visão geral da oferta de taxa de transferência provisionada, consulte o que é taxa de transferência provisionada?. Quando você estiver pronto para se inscrever na oferta de throughput provisionado, consulte o guia de introdução.

Nota

Em casos de uso de agente e invocação de função, o uso de token pode ser variável. Você deve entender detalhadamente o uso esperado de Tokens por Minuto (TPM) antes de migrar cargas de trabalho para o PTU.

Unidades de taxa de transferência provisionadas

As PTUs (unidades provisionadas de taxa de processamento) são unidades genéricas de capacidade de processamento de modelo que você pode usar para ajustar o tamanho das implantações provisionadas a fim de atingir a taxa de transferência necessária para processar prompts e gerar completamentos. Unidades de processamento provisionadas são concedidas a uma assinatura como cota. Cada cota é específica para uma região e define o número máximo de PTUs que podem ser atribuídos a implantações na assinatura e região correspondentes.

Cobrança de taxa de transferência provisionada

Microsoft Taxa de Transferência Provisionada Regional, Taxa de Transferência Provisionada da Zona de Dados e Taxa de Transferência Provisionada Global são cobradas por hora com base no número de PTUs implantadas, com desconto de prazo substancial disponível por meio da compra de reservas do Azure.

O modelo de cobrança por hora é útil para necessidades de implantação de curto prazo, como validar novos modelos ou adquirir capacidade para um hackathon.  No entanto, os descontos fornecidos pela reserva do Azure para Foundry Regional Provisioned, Data Zone Provisioned e Global Provisioned são consideráveis e a maioria dos clientes com uso consistente a longo prazo encontrará um modelo reservado como uma proposta de valor melhor.

Reservas do Azure são uma estrutura de desconto financeiro aplicada aos medidores de faturamento, e não a interações com serviços (como implantação). As reservas e as implantações são acopladas de forma flexível para permitir adaptabilidade. Você cria ou exclui implantações e reservas de forma independente. Essa abordagem permite alterar recursos, assinaturas ou implantações sem alterar a estrutura de cobrança.

Ordem recomendada de operações para evitar encargos indesejados:

  1. Use o Foundry para implantar seu modelo em uma região com cota disponível. Esta etapa confirma que a capacidade existe, já que a cota não é igual à capacidade.
  2. Após a implantação, compartilhe os detalhes da implantação, incluindo o tipo de implantação (Provisionado Global, Provisionado de Zona de Dados ou Provisionado Regional), região e assinatura, com o administrador.
  3. O administrador usa esses detalhes para comprar uma nova reserva que corresponda aos detalhes da implantação ou verificar se uma reserva existente corresponde para receber a taxa com desconto.

Nota

Os clientes provisionados pelo Foundry integrados antes da atualização de autoatendimento de agosto usam um modelo de aquisição denominado modelo de Compromisso. Esses clientes podem continuar a usar esse modelo de compra mais antigo junto com o modelo de compra por hora/reserva. O modelo compromisso não está disponível para novos clientes ou para determinados novos modelos introduzidos após agosto de 2024. Para obter detalhes sobre o modelo de compra de Commitment e as opções de coexistência e migração, consulte a Atualização de Agosto Disponibilizada da Foundry.

Cota independente do modelo

Ao contrário da cota de Tokens por Minuto (TPM) usada por outras ofertas do Foundry, os PTUs são independentes de modelo. As PTUs podem ser usadas para implantar modelos com suporte hospedados e vendidos diretamente por Microsoft na região.

Diagrama de cota independente de modelo com um pool de PTUs disponíveis para vários modelos Azure OpenAI.

A cota para implantações provisionadas aparece no Foundry como os seguintes tipos de implantação: provisionado global, provisionado de zona de dados e provisionado regional.

Nota

A cota não garante a capacidade. Implante seu modelo no Foundry antes de comprar uma reserva correspondente no portal do Azure.

tipo de implantação Nome da cota
Provisionado regionalmente Unidade de taxa de transferência provisionada regional
Provisionamento Global Unidade global de provisionamento de capacidade
Zona de dados provisionada Unidade de taxa de transferência provisionada da zona de dados

Você pode encontrar detalhes sobre a cota para implantações provisionadas na página portal do FoundryCentro de Gerenciamento>Cota.

Captura de tela da interface do usuário de cota para Foundry provisionada.

Uso por hora

Implantações provisionadas regionais, provisionadas de zona de dados e provisionadas globais são cobradas a uma taxa horária ($/PTU/hr) de acordo com o número de PTUs que foram implantadas.  Por exemplo, uma implantação de 300 PTU será cobrada à taxa horária multiplicada por 300.  Todos os preços do modelo foundry estão disponíveis na Calculadora de Preços do Azure.

Se uma implantação existir por uma hora parcial, ela receberá uma cobrança proporcional com base no número de minutos em que foi implantada durante a hora.  Por exemplo, uma implantação que permanece ativa por 15 minutos dentro de uma hora receberá 1/4 da cobrança horária. 

Se o tamanho da implantação for alterado, os custos da implantação serão ajustados para corresponder ao novo número de PTUs.

Um diagrama mostrando a cobrança por hora.

Pagar por implantações provisionadas regionais, de zona de dados e globais com pagamento por hora é ideal para cenários de implantação de curto prazo.  Por exemplo: avaliação comparativa de qualidade e desempenho de novos modelos ou aumento temporário da capacidade de PTU para cobrir um evento, como um hackathon. 

Os clientes que necessitam de uso prolongado de implantações provisionadas regionalmente, de zona de dados e globalmente, podem pagar significativamente menos por mês ao adquirir um desconto para um período por meio de Azure Reservations, conforme discutido posteriormente no artigo.

Importante

Não é recomendável dimensionar as implantações de produção de acordo com o tráfego de entrada e pagar por elas apenas por hora. Há duas razões para isso:

  • A economia de custos obtida com a compra de Reservas do Azure para Provisão de Taxa de Transferência do Foundry, Zona de Dados Provisionada e Provisão Global é significativa, e será mais barato, em muitos casos, manter uma implantação dimensionada para o volume de produção total pago por meio de uma reserva do que escalar a implantação com base no tráfego de entrada.
  • Ter PTUs (cota provisionada) não utilizada não garante que a capacidade estará disponível para dar suporte a um aumento no tamanho da implantação quando necessário. A cota limita o número máximo de PTUs que podem ser implantadas, mas não é uma garantia de capacidade. A capacidade provisionada para cada região e modelo muda dinamicamente ao longo do dia e pode não estar disponível quando necessário. Como resultado, é recomendável manter uma implantação permanente para cobrir suas necessidades de tráfego (pagas por meio de uma reserva).

Excluir implantações de PTU

Importante

Os encargos para implantações em um recurso excluído continuarão até que o recurso seja eliminado. Para evitar encargos indesejados, exclua a implantação de um recurso antes de excluir o recurso. No entanto, se você já tiver excluído o recurso primeiro, poderá recuperá-lo ou purgá-lo. Para obter mais informações, consulte recuperar ou limpar recursos Azure OpenAI excluídos.

Excluir uma implantação não cancela nem altera nenhuma reserva de PTU. As reservas não dão suporte à exclusão. Você pode usar o portal Azure para cancelar ou trocar reservas manualmente e essas opções podem incorrer em taxas extras.

Siga os passos seguintes para excluir uma implantação provisionada e evitar cobranças indesejadas.

  1. Exclua a implantação no portal do Foundry.
  2. Se você planeja remover o recurso de IA Azure, exclua as implantações primeiro e exclua o recurso. Purga o recurso para interromper as cobranças.
  3. Vá para a página Reservations no portal Azure para gerenciar reservas. No portal Azure, você pode comprar, cancelar ou trocar reservas para se alinhar com as implantações atuais.

Qual é a taxa de transferência por PTU para cada modelo

A quantidade de taxa de transferência (medida em tokens por minuto ou TPM) que uma implementação obtém por unidade de PTU é uma função dos tokens de entrada e de saída em um determinado minuto. Gerar tokens de saída requer mais processamento do que tokens de entrada. Começando com modelos GPT 4.1 e posteriores, o sistema geralmente alinha-se com a relação de preço padrão global entre tokens de entrada e saída, com exceções em alguns modelos. Para todas as implantações, os tokens armazenados em cache são deduzidos 100% da utilização.

Por exemplo, para gpt-5, um token de saída conta como oito tokens de entrada para o limite de utilização, que corresponde ao preço. Para outros modelos, como gpt-4.1, um token de saída conta como quatro tokens de entrada. Modelos mais antigos usam uma proporção diferente.

Para entender melhor como diferentes proporções de tokens de entrada e saída impactam a taxa de transferência necessária para sua carga de trabalho, consulte a calculadora de cotas de PTU do Foundry.

Exceções à taxa de transferência de entrada e saída

O sistema permite exceções à taxa de token de entrada para saída padrão para determinados modelos. Por exemplo, com Llama-3.3-70B-Instruct, um token de saída conta como quatro tokens de entrada para o limite de utilização. Essa taxa difere da taxa de preço padrão global entre tokens de entrada e de saída. Para ver os preços de entrada e saída do modelo, consulte os preços dos modelos llama.

Modelos do OpenAI de Azure mais recentes

Nota

gpt-5.4, gpt-4.1, gpt-4.1-mini e gpt-4.1-nano não dão suporte a contexto longo (solicitações estimadas em tokens de prompt maiores que 128k).

Tópico gpt-5.5 gpt-5.4 gpt-5.3-codex gpt-5.2 gpt-5.2-codex gpt-5.1 gpt-5.1-codex gpt-5 gpt-5-mini gpt-4.1 gpt-4.1-mini gpt-4.1-nano o3 o4-mini
Implantação mínima provisionada de zona de dados global 15 15 15 15 15 15 15 15 15 15 15 15 15 15
Incremento de escala provisionada da zona global e de dados 5 5 5 5 5 5 5 5 5 5 5 5 5 5
Provisão regional de implantação mínima 50 50 50 50 50 50 50 50 25 50 25 25 50 25
Incremento de escala provisionada regional 50 50 50 50 50 50 50 50 25 50 25 25 50 25
TPM de entrada por PTU 1,200 2,400 3,400 3,400 3,400 4,750 4,750 4,750 23.750 3,000 14,900 59.400 3,000 5,400
Meta de latência 99% > 100 tokens por segundo* 99% > 50 tokens por segundo* 99% > 50 tokens por segundo* 99% > 50 tokens por segundo* 99% > 50 tokens por segundo* 99% > 50 tokens por segundo* 99% > 50 tokens por segundo* 99% > 50 tokens por segundo* 99% > 80 tokens por segundo* 99% > 80 tokens por segundo* 99% > 90 tokens por segundo* 99% > 100 tokens por segundo* 99% > 80 tokens por segundo* 99% > 90 tokens por segundo*

* Calculado como latência de solicitação p50 por 5 minutos.

Modelos do OpenAI Azure anteriores

Tópico gpt-4o gpt-4o-mini o3-mini o1
Implantação mínima provisionada de zona de dados global 15 15 15 15
Incremento de escala provisionada da zona global e de dados 5 5 5 5
Provisão regional de implantação mínima 50 25 25 25
Incremento de escala provisionada regional 50 25 25 50
TPM de entrada por PTU 2,500 37,000 2,500 230
Meta de latência 99% > 25 tokens por segundo* 99% > 33 tokens por segundo* 99% > 66 tokens por segundo* 99% > 25 tokens por segundo*

* Calculado como a latência média da solicitação por minuto ao longo do mês.

Direto de modelos de Azure

Tópico Llama-3.3-70B-Instruct DeepSeek-R1 DeepSeek-V3-0324 DeepSeek-R1-0528
Implantação mínima provisionada de zona de dados global 100 100 100 100
Incremento de escala provisionada da zona global e de dados 100 100 100 100
Provisão regional de implantação mínima NA NA NA NA
Incremento de escala provisionada regional NA NA NA NA
TPM de entrada por PTU 8.4501 4,000 4,000 4,000
Meta de latência 99% > 50 tokens por segundo* 99% > 50 tokens por segundo* 99% > 50 tokens por segundo* 99% > 50 tokens por segundo*

* Calculado como a latência média da solicitação por minuto ao longo do mês.

1 Para Llama-3.3-70B-Instruct, um token de saída conta como quatro tokens de entrada para o limite de utilização. Essa taxa difere da taxa de preço padrão global entre tokens de entrada e de saída. Para obter mais detalhes, consulte Exceções à taxa de transferência de entrada e saída.

Para obter uma lista completa, consulte a Calculadora Foundry.

Fogos de artifício em modelos de Microsoft Foundry (versão prévia)

Os seguintes Fireworks nos modelos Microsoft Foundry atualmente suportam a taxa de transferência provisionada.

Tópico gpt-oss-120b Kimi K2 Instrução 0905 Kimi K2 Thinking Kimi K2.5 Kimi K2.6 DeepSeek v3.1 DeepSeek v3.2 Qwen3 14B MiniMax 2.5 GLM-5 GLM-4.7
Implantação mínima provisionada global 80 500 500 800 800 800 1200 80 400 700 800
Incremento de escala provisionada global 40 275 275 400 400 400 600 40 200 350 400
TPM de entrada por PTU 13,500 1,250 700 530 2.000 1,050 1,500 4,800 3,000 3,500 3,000
Meta de latência 99% > 50 tokens por segundo* 99% > 50 tokens por segundo* 99% > 50 tokens por segundo* 99% > 50 tokens por segundo* 99% > 50 tokens por segundo* 99% > 50 tokens por segundo* 99% > 50 tokens por segundo* 99% > 50 tokens por segundo* 99% > 50 tokens por segundo* 99% > 50 tokens por segundo* 99% > 50 tokens por segundo*

* Calculado como a latência média da solicitação por minuto ao longo do mês.

Determinar os requisitos de PTU para uma carga de trabalho

Determinar o número certo de PTUs (unidades de taxa de transferência) provisionadas para sua carga de trabalho é uma etapa essencial para otimizar o desempenho e o custo.

As PTUs representam uma quantidade de capacidade de processamento de modelo. Semelhante ao seu computador ou bancos de dados, cargas de trabalho ou solicitações diferentes para o modelo consumirão diferentes quantidades de capacidade de processamento subjacente. A conversão de taxa de transferência para PTUs pode ser aproximada usando dados históricos de uso de tokens ou estimativas de formato da chamada (tokens de entrada, tokens de saída e solicitações por minuto), conforme descrito na documentação de desempenho e latência.

Para simplificar esse processo, você pode usar a Calculadora Foundry para dimensionar formas específicas de carga de trabalho.

Algumas considerações de alto nível:

  • As gerações exigem mais capacidade do que mensagens de comando
  • Para modelos GPT-4o e posteriores, o TPM por PTU é definido para tokens de entrada e saída separadamente. Para modelos mais antigos, chamadas maiores são progressivamente mais caras para serem computadas. Por exemplo, 100 chamadas com um prompt de 1000 tokens necessitam de menos capacidade do que uma chamada com 100.000 tokens no prompt. Esta hierarquização significa que a distribuição dessas formas de chamada é importante na taxa de processamento geral. Padrões de tráfego com uma distribuição ampla que inclua algumas chamadas grandes podem apresentar uma taxa de transferência menor por unidade de processamento (PTU) do que uma distribuição mais estreita com os mesmos tamanhos médios de prompt e token de conclusão.

Obter cota de PTU

Os clientes precisam solicitar cota por meio do Link de Cota de Solicitação.

Se mais cotas forem necessárias, você também precisará solicitar cota por meio do link no hub de cotas no centro de gerenciamento da Foundry. O formulário permite que o cliente solicite um aumento na cota de PTU especificada para uma determinada região. O cliente recebe um email no endereço incluído depois que a solicitação é aprovada, normalmente dentro de dois dias úteis.

Mínimos de PTU por modelo

A capacidade mínima de implantação, incrementos e processamento de PTU associada a cada unidade varia de acordo com o tipo de modelo e a versão. Consulte a tabela acima para obter mais informações.

Estimar unidades de taxa de transferência provisionadas e custo

Para obter uma estimativa rápida da carga de trabalho usando o TPM de entrada e saída, aproveite o planejador de capacidade interno na seção de detalhes da implantação da tela de diálogo de implantação. O planejador de capacidade interno faz parte do fluxo de trabalho de implantação para ajudar a simplificar o dimensionamento e a alocação de cota para uma implantação de PTU para uma determinada carga de trabalho. Para obter mais informações sobre como identificar e estimar dados do TPM, examine as recomendações em nossa documentação de desempenho e latência.

Para usar o planejador de capacidade, acesse o portal do Foundry e selecione o botão Implantações . Em seguida, selecione Implantar modelo.

Uma captura de tela da tela de implantação do modelo.

Escolha um modelo e clique em Confirmar. Selecione um tipo de implantação de provisionamento de throughput. Depois de preencher os dados de entrada e saída do TPM na calculadora de capacidade interna, selecione o botão Calcular para exibir sua recomendação de alocação de PTU.

Uma captura de tela da calculadora de capacidade de PTU do fluxo de trabalho de implantação.

Para estimar a capacidade provisionada usando dados de nível de solicitação, abra o planejador de capacidade no portal do Foundry. A calculadora de capacidade está sob o Centro de Gerenciamento> de Cota> e Taxa de Transferência Provisionada.

A opção Taxa de Transferência Provisionada e a calculadora só estão disponíveis em determinadas regiões dentro do painel Cota. Se você não vir essa opção, ao definir a região de cota para Suécia Central, essa opção ficará disponível. Insira os parâmetros a seguir com base na carga de trabalho.

Entrada Descrição
Modelo modelo que você planeja usar. Por exemplo: GPT-4
Versão Versão do modelo que você planeja usar, por exemplo, 0614
Chamadas de pico por minuto O número de chamadas por minuto que devem ser enviadas para o modelo
Tokens na chamada do prompt O número de tokens no prompt de cada chamada para o modelo. Chamadas com prompts maiores utilizam mais das implantações de PTU. Atualmente, essa calculadora pressupõe um único valor de prompt para cargas de trabalho com ampla variação. Recomendamos realizar um teste de benchmark com base no tráfego para determinar a estimativa mais precisa de PTU necessária para a implantação.
Tokens na resposta do modelo O número de tokens gerados de cada chamada ao modelo. Chamadas com tamanhos de geração maiores utilizam mais da implantação de PTU. Atualmente, essa calculadora pressupõe um único valor de prompt para cargas de trabalho com ampla variação. Recomendamos realizar um teste de benchmark com base no tráfego para determinar a estimativa mais precisa de PTU necessária para a implantação.

Depois de preencher os detalhes necessários, selecione o botão Calcular na coluna de saída.

Os valores na coluna de saída são o valor estimado das unidades PTU necessárias para as entradas de carga de trabalho fornecidas. O primeiro valor de saída representa as unidades de PTU estimadas necessárias para a carga de trabalho, arredondadas para o incremento de escala de PTU mais próximo. O segundo valor de saída representa as unidades de PTU estimadas brutas necessárias para a carga de trabalho. Os totais de token são calculados usando a seguinte equação: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).

Captura de tela da calculadora de capacidade

Nota

As calculadoras de capacidade fornecem uma estimativa com base em critérios de entrada simples. A maneira mais precisa de determinar sua capacidade é fazer benchmark de uma implantação com uma carga de trabalho representativa para seu caso de uso.

Reservas do Azure para Capacidade de Processamento Provisionado do Foundry

Os descontos sobre o preço de uso por hora podem ser obtidos pela compra de uma reserva de Azure para Provisionamento Regional de Fundação, Zona de Dados Provisionada e Provisionado Global. Uma reserva da Azure é um mecanismo de desconto por prazo compartilhado por muitos produtos da Azure. Por exemplo, Compute e Cosmos DB. Para Fundição Regional Provisionada, Zona de Dados Provisionado e Global Provisionado, a reserva fornece um desconto em troca de se comprometer com o pagamento de um número fixo de PTUs por um período de um mês ou um ano.

  • Azure Reservas são compradas por meio da página Reservations no portal Azure.

  • As reservas são adquiridas regionalmente e podem ter escopo flexível para cobrir o uso de um grupo de implantações. Os escopos de reserva incluem:

    • Grupos de recursos individuais ou assinaturas

    • Um grupo de assinaturas em um Grupo de Gestão

    • Todas as assinaturas em uma conta de cobrança

  • O desconto se aplica quando o tipo de implantação (Regional/Zona de Dados/Global), Região e Escopo de Reserva (assinatura ou grupo de recursos) correspondem à implantação em execução. A identificação não é por ID de modelo nem de implantação. Implantações múltiplas dentro do escopo podem consumir a mesma reserva até atingir sua quantidade de PTU.

  • Novas reservas podem ser adquiridas para abranger o mesmo escopo que as reservas existentes, para permitir o desconto de novas implantações provisionadas. O escopo das reservas existentes também pode ser atualizado a qualquer momento sem penalidade, por exemplo, para cobrir uma nova assinatura.

  • As reservas para implantações globais, de zona de dados e regionais não são intercambiáveis. Você precisa comprar uma reserva separada para cada tipo de implantação.

  • As reservas podem ser canceladas após a compra, mas os créditos são limitados.

  • Se o tamanho das implantações provisionadas no escopo de uma reserva exceder a quantidade da reserva, o excesso será cobrado à taxa por hora. Por exemplo, se houver implantações no valor de 250 PTUs no escopo de uma reserva de 200 PTU, 50 PTUs serão cobradas por hora até que os tamanhos de implantação sejam reduzidos para 200 PTUs ou uma nova reserva seja criada para cobrir os 50 restantes.

  • As reservas garantem um preço com desconto para o termo selecionado.  Eles não reservam capacidade no serviço ou garantem que ele estará disponível quando uma implantação for criada. É altamente recomendável que os clientes criem implantações antes de comprar uma reserva para proteger contra a compra excessiva de uma reserva.

Importante

  • A disponibilidade de capacidade para implantações de modelo é dinâmica e muda com frequência entre regiões e modelos. Para proteger contra a compra de uma reserva para mais PTUs do que você pode usar, primeiro crie as implantações e, em seguida, adquira a Reserva do Azure para cobrir as PTUs implantadas. Essa prática recomendada garantirá que você possa aproveitar ao máximo o desconto de reserva e protegerá você de se comprometer com uma reserva que você não pode usar.

  • Os requisitos de função do Azure e política de locatário para comprar uma reserva são diferentes daqueles necessários para criar uma implantação ou um recurso do Foundry. Verifique a autorização para comprar reservas antes da necessidade de fazer isso. Consulte a Reserva de Taxa de Transferência Provisionada pelo Foundry para obter mais detalhes.

Dimensionar sua reserva de taxa de transferência provisionada do Foundry

As quantidades de PTU em compras de reserva são independentes dos PTUs alocados em cotas ou usados em implantações. É possível comprar uma reserva para mais PTUs do que você tem em cota ou pode implantar para a região, o modelo ou a versão desejados. Os créditos para a supercompra de uma reserva são limitados, e os clientes devem tomar medidas para garantir que mantenham o tamanho de suas reservas em linha com as PTUs implantadas.

A melhor prática é sempre adquirir uma reserva após as implantações serem criadas. Isso protege contra a compra de uma reserva e, em seguida, descobrir que a capacidade necessária não está disponível para a região ou modelo desejado.

As reservas para implantações globais, de zona de dados e regionais não são intercambiáveis. Você precisa comprar uma reserva separada para cada tipo de implantação.

Para ajudar os clientes a comprar os valores de reserva corretos. O número total de PTUs em uma assinatura e região que podem ser cobertas por uma reserva está listado na página de Cotas do portal Foundry. Consulte a mensagem "PTUs disponíveis para reserva".

Uma captura de tela mostrando a cota de PTU disponível.

Gerenciar reservas de Azure

Depois que uma reserva for criada, monitore-a por meio do portal de reserva do Azure ou Azure Monitor para garantir que a reserva esteja recebendo o uso esperado. Para saber mais sobre como gerenciar e monitorar reservas de Azure, confira estes artigos: