Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Use este artigo para saber mais sobre os custos associados às PTUs (unidades de taxa de transferência) provisionadas. Para obter uma visão geral da oferta de taxa de transferência provisionada, consulte o que é taxa de transferência provisionada?. Se estiver pronto para se inscrever na oferta de throughput provisionado, consulte o guia de introdução.
Nota
Em casos de uso de chamadas de funções e agentes, o uso de tokens pode ser variável. Você deve compreender em detalhes o uso esperado de Tokens por Minuto (TPM) antes de migrar cargas de trabalho para o PTU.
Unidades de taxa de transferência provisionadas
AS PTUs (unidades de taxa de transferência) provisionadas são unidades genéricas de capacidade de processamento de modelo que você pode usar para dimensionar implantações provisionadas para atingir a taxa de transferência necessária para processar prompts e gerar conclusões. Unidades provisionadas de taxa de transferência são concedidas como cota a uma assinatura. Cada cota é específica para uma região e define o número máximo de PTUs que podem ser atribuídos a implantações nessa assinatura e região.
Cobrança de largura de banda provisionada
A Microsoft Foundry Taxa de Transferência Provisionada Regional, Taxa de Transferência Provisionada da Zona de Dados e Taxa de Transferência Provisionada Global são cobradas por hora com base no número de PTUs implantados, com desconto de prazo substancial disponível por meio da compra de reservas do Azure.
O modelo de cobrança por hora é útil para necessidades de implantação de curto prazo, como validar novos modelos ou adquirir capacidade para um hackathon. No entanto, os descontos fornecidos pela reserva do Azure para Fundação Regional Provisionada, Zona de Dados Provisionada e Global Provisionado são consideráveis, e a maioria dos clientes com uso consistente a longo prazo encontrará um modelo reservado uma proposta de valor mais vantajosa.
Reservas do Azure são um conceito de desconto financeiro aplicado a medidores de cobrança, e não a interações de serviço (como implantação). As reservas e as implantações são acopladas de maneira flexível para proporcionar maior adaptabilidade. Você cria ou exclui implantações e reservas de forma independente. Essa abordagem permite alterar recursos, assinaturas ou implantações sem alterar a estrutura de cobrança.
Ordem recomendada de operações para evitar encargos indesejados:
- Use o Foundry para implantar seu modelo em uma região com cota disponível. Esta etapa confirma que a capacidade existe, já que a cota não é igual à capacidade.
- Após a implantação, compartilhe os detalhes da implantação, incluindo o tipo de implantação (Provisionado Global, Provisionado de Zona de Dados ou Provisionado Regional), região e assinatura, com o administrador.
- O administrador usa esses detalhes para comprar uma nova reserva que corresponda aos detalhes da implantação ou verificar se uma reserva existente corresponde para receber a taxa com desconto.
Nota
Os clientes provisionados pelo Foundry integrados antes da atualização de autoatendimento de agosto usam um modelo de compra chamado modelo de compromisso. Esses clientes podem continuar a usar esse modelo de compra mais antigo junto com o modelo de compra por hora/reserva. O modelo compromisso não está disponível para novos clientes ou para determinados novos modelos introduzidos após agosto de 2024. Para obter detalhes sobre o modelo de compra de Compromissos e as opções para coexistência e migração, consulte a Atualização de Agosto Provisionada da Foundry.
Cota independente do modelo
Ao contrário da cota de Tokens por Minuto (TPM) usada por outras ofertas do Foundry, as PTUs são independentes de modelo. As PTUs podem ser usadas para implantar modelos com suporte hospedados e vendidos diretamente por Microsoft na região.
A cota para implantações provisionadas aparece no Foundry como os seguintes tipos de implantação: provisionado global, provisionado de zona de dados e provisionado regional.
Nota
A cota não garante a capacidade. Implante seu modelo no Foundry antes de comprar uma reserva correspondente no portal do Azure.
| tipo de implantação | Nome da cota |
|---|---|
| Provisionamento Regional | Unidade regional de throughput provisionado |
| Provisionado Global | Unidade de taxa de transferência provisionada global |
| Zona de dados provisionada | Unidade de taxa de transferência provisionada de zona de dados |
Você pode encontrar detalhes sobre a cota para implantações provisionadas na seção Operate do portal Microsoft Foundry no painel Quota.
Uso por hora
Implantações de provisionamento regional, provisionamento de zona de dados e provisionamento global são tarifadas por hora ($/PTU/hr) com base no número de PTUs que foram implantados. Por exemplo, uma implantação de 300 PTU será cobrada a taxa horária multiplicada por 300. Todos os preços do modelo foundry estão disponíveis na Calculadora de Preços do Azure.
Se uma implantação existir por uma hora parcial, ela receberá uma cobrança proporcional com base no número de minutos em que foi implantada durante a hora. Por exemplo, uma implantação que existe por 15 minutos durante uma hora receberá 1/4 da cobrança horária.
Se o tamanho da implantação for alterado, os custos da implantação serão ajustados para corresponder ao novo número de PTUs.
Pagar por implantações provisionadas em nível regional, em nível de zona de dados e em nível global por hora é ideal para cenários de implantação de curto prazo. Por exemplo: avaliação comparativa de qualidade e desempenho de novos modelos ou aumento temporário da capacidade de PTU para cobrir um evento como um hackathon.
Os clientes que requerem uso a longo prazo de implantações provisionadas regionais, provisionadas de zona de dados e provisionadas globais, no entanto, podem pagar significativamente menos por mês adquirindo um desconto por prazo por meio de Azure Reservations, conforme discutido mais adiante no artigo.
Importante
Não é recomendável dimensionar as implantações de produção de acordo com o tráfego de entrada e pagar por elas apenas por hora. Há duas razões para isso:
- A economia de custos obtida com a compra de Reservas do Azure para a Taxa de Transferência Provisionada do Foundry, Zona de Dados Provisionada e Global Provisionada são significativas, e em muitos casos será mais barato manter uma implantação dimensionada para o volume de produção total pago por meio de uma reserva, do que seria dimensionar a implantação com o tráfego de entrada.
- Ter PTUs (cota provisionada) não utilizada não garante que a capacidade estará disponível para dar suporte a um aumento no tamanho da implantação quando necessário. A cota limita o número máximo de PTUs que podem ser implantadas, mas não é uma garantia de capacidade. A capacidade provisionada para cada região e modelo muda dinamicamente ao longo do dia e pode não estar disponível quando necessário. Como resultado, é recomendável manter uma implantação permanente para cobrir suas necessidades de tráfego (pagas por meio de uma reserva).
Excluir implantações de PTU
Importante
As cobranças por implantações em um recurso excluído continuarão até que o recurso seja purgado. Para evitar cobranças indesejadas, exclua a implantação do recurso antes de removê-lo. No entanto, se você já tiver excluído o recurso primeiro, poderá recuperá-lo ou purgá-lo. Para obter mais informações, consulte recuperar ou limpar recursos Azure OpenAI excluídos.
Excluir uma implantação não cancela nem altera nenhuma reserva de PTU. As reservas não dão suporte à exclusão. Você pode usar o portal Azure para cancelar ou trocar reservas manualmente e essas opções podem incorrer em taxas extras.
Utilize estes passos para excluir uma implantação provisionada e evitar encargos indesejados.
- Exclua a implantação no portal Microsoft Foundry.
- Se você planeja remover o recurso de IA Azure, exclua as implantações primeiro e exclua o recurso. Purgar o recurso para evitar cobrança.
- Vá para a página Reservations no portal Azure para gerenciar reservas. No portal Azure, você pode comprar, cancelar ou trocar reservas para se alinhar com as implantações atuais.
Qual é o throughput por PTU que você obtém para cada modelo
A quantidade de taxa de transferência (medida em tokens por minuto ou TPM) que uma implantação obtém por PTU é uma função dos tokens de entrada e saída em um determinado minuto. Gerar tokens de saída requer mais processamento do que tokens de entrada. Começando com modelos GPT 4.1 e posteriores, o sistema geralmente alinha-se à proporção de preço padrão global entre tokens de entrada e saída, com exceções para alguns modelos. Para todas as implantações, os tokens armazenados em cache são deduzidos 100% da utilização.
Por exemplo, para gpt-5, um token de saída conta como oito tokens de entrada para o limite de utilização, que corresponde ao preço. Para outros modelos, como gpt-4.1, um token de saída conta como quatro tokens de entrada. Modelos mais antigos usam uma proporção diferente.
Exceções à taxa de transferência de entrada e saída
O sistema permite exceções à taxa de token de entrada para saída padrão para determinados modelos. Por exemplo, com Llama-3.3-70B-Instruct, um token de saída conta como quatro tokens de entrada para o cálculo do seu limite de utilização. Essa taxa difere da taxa de preço padrão global entre tokens de entrada e de saída. Para ver os preços de entrada e saída do modelo, consulte os preços dos modelos llama.
Modelos do OpenAI de Azure mais recentes
Nota
gpt-5.4, gpt-4.1, gpt-4.1-mini e gpt-4.1-nano não dão suporte a contexto longo (solicitações estimadas em tokens de prompt maiores que 128k).
| Tópico | gpt-5.5 | gpt-5.4 | gpt-5.3-codex | gpt-5.2 | gpt-5.2-codex | gpt-5.1 | gpt-5.1-codex | gpt-5 | gpt-5-mini | gpt-4.1 | gpt-4.1-mini | gpt-4.1-nano | o3 | o4-mini |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Provisão mínima de implantação de zona global e de dados | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 | 15 |
| Incremento de escala provisionada da zona de dados global | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 |
| Implantação mínima provisionada regional | 50 | 50 | 50 | 50 | 50 | 50 | 50 | 50 | 25 | 50 | 25 | 25 | 50 | 25 |
| Incremento de escala provisionada regional | 50 | 50 | 50 | 50 | 50 | 50 | 50 | 50 | 25 | 50 | 25 | 25 | 50 | 25 |
| TPM de entrada por PTU | 1,200 | 2,400 | 3,400 | 3,400 | 3,400 | 4,750 | 4,750 | 4,750 | 23.750 | 3,000 | 14,900 | 59.400 | 3,000 | 5,400 |
| Valor alvo de latência | 99% > 100 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 80 tokens por segundo* | 99% > 80 tokens por segundo* | 99% > 90 tokens por segundo* | 99% > 100 tokens por segundo* | 99% > 80 tokens por segundo* | 99% > 90 tokens por segundo* |
* Calculado como latência de solicitação p50 por 5 minutos.
Modelos do OpenAI Azure anteriores
| Tópico | gpt-4o | gpt-4o-mini | o3-mini | o1 |
|---|---|---|---|---|
| Provisão mínima de implantação de zona global e de dados | 15 | 15 | 15 | 15 |
| Incremento de escala provisionada da zona de dados global | 5 | 5 | 5 | 5 |
| Implantação mínima provisionada regional | 50 | 25 | 25 | 25 |
| Incremento de escala provisionada regional | 50 | 25 | 25 | 50 |
| TPM de entrada por PTU | 2,500 | 37,000 | 2,500 | 230 |
| Valor alvo de latência | 99% > 25 tokens por segundo* | 99% > 33 tokens por segundo* | 99% > 66 tokens por segundo* | 99% > 25 tokens por segundo* |
* Calculado como a latência média da solicitação por minuto ao longo do mês.
Direto de modelos de Azure
| Tópico | Llama-3.3-70B-Instruct | DeepSeek-R1 | DeepSeek-V3-0324 | DeepSeek-R1-0528 |
|---|---|---|---|---|
| Provisão mínima de implantação de zona global e de dados | 100 | 100 | 100 | 100 |
| Incremento de escala provisionada da zona de dados global | 100 | 100 | 100 | 100 |
| Implantação mínima provisionada regional | NA | NA | NA | NA |
| Incremento de escala provisionada regional | NA | NA | NA | NA |
| TPM de entrada por PTU | 8.4501 | 4,000 | 4,000 | 4,000 |
| Valor alvo de latência | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* |
* Calculado como a latência média da solicitação por minuto ao longo do mês.
1 Para Llama-3.3-70B-Instruct, um token de saída conta como quatro tokens de entrada para o limite de utilização. Essa taxa difere da taxa de preço padrão global entre tokens de entrada e de saída. Para obter mais detalhes, consulte Exceções à taxa de transferência de entrada e saída.
Fogos de artifício em modelos de Microsoft Foundry (versão prévia)
Os seguintes Fireworks nos modelos da Microsoft Foundry atualmente suportam a taxa de transferência provisionada.
| Tópico | gpt-oss-120b | Kimi K2 Instrução 0905 | Kimi K2 Thinking | Kimi K2.5 | DeepSeek v3.1 | DeepSeek v3.2 | Qwen3 14B | MiniMax 2.5 | GLM-5 | GLM-4.7 |
|---|---|---|---|---|---|---|---|---|---|---|
| Provisão mínima de implantação de zona global e de dados | 80 | 500 | 500 | 800 | 800 | 1200 | 80 | 400 | 700 | 800 |
| Incremento de escala provisionada da zona de dados global | 40 | 275 | 275 | 400 | 400 | 600 | 40 | 200 | 350 | 400 |
| TPM de entrada por PTU | 13,500 | 1,250 | 700 | 530 | 1,050 | 1,500 | 4,800 | 3,000 | 3,500 | 3,000 |
| Valor alvo de latência | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* | 99% > 50 tokens por segundo* |
* Calculado como a latência média da solicitação por minuto ao longo do mês.
Determinar os requisitos de PTU para uma carga de trabalho
Determinar o número certo de PTUs (unidades de taxa de transferência) provisionadas para sua carga de trabalho é uma etapa essencial para otimizar o desempenho e o custo.
As PTUs representam uma quantidade de capacidade de processamento de modelo. Semelhante ao seu computador ou bancos de dados, cargas de trabalho ou solicitações diferentes para o modelo consumirão diferentes quantidades de capacidade de processamento subjacente. A conversão de taxa de transferência para PTUs pode ser aproximada usando dados históricos de uso de token ou estimativas de configuração de chamadas (tokens de entrada, tokens de saída e solicitações por minuto), conforme descrito na documentação de desempenho e latência.
Algumas considerações de alto nível:
- As gerações necessitam de mais capacidade do que sugestões
- Para modelos GPT-4o e posteriores, o TPM por PTU é definido para tokens de entrada e saída separadamente. Para modelos mais antigos, chamadas maiores são progressivamente mais caras para computar. Por exemplo, 100 chamadas com um prompt de 1000 tokens exigem menos capacidade do que uma chamada com 100.000 tokens no prompt. Essa categorização significa que a distribuição desses padrões de chamadas é importante na taxa de transferência geral. Padrões de tráfego com uma distribuição ampla que inclui algumas chamadas grandes podem experimentar uma taxa de transferência menor por PTU do que uma distribuição mais estreita com o mesmo prompt médio e tamanhos de token de conclusão.
Obter cota de PTU
Os clientes precisam solicitar cota por meio do Link de Cota de Solicitação.
Se mais cotas forem necessárias, você também precisará solicitar cotas por meio do link na seção Microsoft FoundryOperate>Quota. O formulário permite que o cliente solicite um aumento na cota de PTU especificada para uma determinada região. O cliente recebe um email no endereço incluído depois que a solicitação é aprovada, normalmente dentro de dois dias úteis.
Mínimos de PTU por modelo
A capacidade mínima de implantação, incrementos e processamento de PTU associada a cada unidade varia de acordo com o tipo de modelo e a versão. Consulte a tabela acima para obter mais informações.
reservas de Azure para taxa de transferência provisionada de fundação
Descontos sobre o preço de uso por hora podem ser obtidos pela compra de uma Reserva do Azure para Foundry Regional Provisionado, Zona de Dados Provisionado e Global Provisionado. Uma Reserva do Azure é um mecanismo de desconto por prazo compartilhado por muitos produtos do Azure. Por exemplo, Compute e Cosmos DB. Para Fundição Regional Provisionada, Zona de Dados Provisionada e Global Provisionado, a reserva fornece um desconto em troca do compromisso com o pagamento de uma quantidade fixa de PTUs por um período de um mês ou um ano.
Azure Reservas são compradas por meio da página Reservations no portal Azure.
As reservas são adquiridas regionalmente e podem ter escopo flexível para cobrir o uso de um grupo de implantações. Os escopos de reserva incluem:
Grupos de recursos individuais ou assinaturas
Um grupo de assinaturas em um Grupo de Gerenciamento
Todas as assinaturas em uma conta de cobrança
O desconto se aplica quando o tipo de implantação (Regional/Zona de Dados/Global), Região e Escopo de Reserva (assinatura ou grupo de recursos) correspondem à implantação em execução. A correspondência não é por ID de modelo ou implantação. Várias implantações no escopo podem consumir a mesma reserva até sua quantidade de PTU.
Novas reservas podem ser adquiridas para abranger o mesmo escopo que as reservas existentes, para permitir o desconto de novas implantações provisionadas. O escopo das reservas existentes também pode ser atualizado a qualquer momento sem penalidade, por exemplo, para cobrir uma nova assinatura.
As reservas para implantações globais, de zona de dados e regionais não são intercambiáveis. Você precisa comprar uma reserva separada para cada tipo de implantação.
As reservas podem ser canceladas após a compra, mas os créditos são limitados.
Se o tamanho das implantações provisionadas dentro do escopo da reserva exceder a quantidade da reserva, o excesso será cobrado na taxa horária. Por exemplo, se houver implantações no valor de 250 PTUs no escopo de uma reserva de 200 PTU, 50 PTUs serão cobradas por hora até que os tamanhos de implantação sejam reduzidos para 200 PTUs ou uma nova reserva seja criada para cobrir os 50 restantes.
As reservas garantem um preço com desconto para o termo selecionado. Eles não reservam capacidade no serviço e não garantem que ele estará disponível quando uma implantação for criada. É altamente recomendável que os clientes criem implementações antes de comprar uma reserva para evitar a compra excessiva de reservas.
Importante
A disponibilidade de capacidade para implantações de modelo é dinâmica e muda com frequência entre regiões e modelos. Para proteger contra a compra de uma reserva para mais PTUs do que você pode usar, crie implantações primeiro e, em seguida, compre a reserva do Azure para cobrir as PTUs que você implantou. Essa prática recomendada garantirá que você possa aproveitar ao máximo o desconto de reserva e protegerá você de se comprometer com uma reserva que você não pode usar.
Os requisitos de função do Azure e de política de locatário para comprar uma reserva são diferentes daqueles necessários para criar uma implantação ou recurso do Foundry. Verifique a autorização para comprar reservas antes da necessidade de fazer isso. Consulte a Reserva de Atravessamento Provisionado do Foundry para obter mais detalhes.
Dimensionar sua reserva de taxa de transferência provisionada do Foundry
As quantidades de PTU em compras de reserva são independentes dos PTUs alocados em cota ou usados em implantações. É possível comprar uma reserva para mais PTUs do que você tem na sua quota ou pode implantar na região, modelo ou versão desejada. Os créditos para a compra excessiva de uma reserva são limitados, e os clientes devem tomar medidas para garantir que mantenham seus tamanhos de reserva de acordo com suas PTUs implantadas.
A melhor prática é sempre comprar uma reserva depois que as implantações tiverem sido criadas. Isso protege contra a compra de uma reserva e, em seguida, descobrir que a capacidade necessária não está disponível para a região ou modelo desejado.
As reservas para implantações globais, de zona de dados e regionais não são intercambiáveis. Você precisa comprar uma reserva separada para cada tipo de implantação.
Gerenciar reservas de Azure
Depois que uma reserva for criada, monitore-a por meio do portal de reserva do Azure ou Azure Monitor para garantir que a reserva esteja recebendo o uso esperado. Para saber mais sobre como gerenciar e monitorar reservas de Azure, confira estes artigos:
- Visualizar utilização de reservas do Azure
- Visualizar transações de compra e reembolso de reserva do Azure
- Exibir custos de benefício amortizados
- Fature os custos da reserva do Azure
- Automaticamente renovar reservas Azure
Conteúdo relacionado
- Guia de Início das Unidades de Taxa de Transferência Provisionadas (PTU)
- Conceitos de PTU (Unidades de Taxa de Transferência Provisionadas)
- Documentação da reserva de largura de banda provisionada
- Desempenho e latência
- Tipos de implantação
- Atualizações da oferta gerenciada provisionada do Azure OpenAI