Partilhar via


Unidades de modelo na taxa de transferência provisionada

As unidades modelo são uma medida de taxa de transferência que determina quanto trabalho o seu endpoint pode lidar por minuto. Ao criar um novo ponto de extremidade de taxa de transferência provisionada, especifica quantas unidades de modelo provisionar para cada modelo servido.

A quantidade de trabalho necessária para processar cada solicitação para seu endpoint depende do tamanho da entrada e da saída gerada. À medida que o número de tokens de entrada e saída aumenta, a quantidade de trabalho necessária para processar uma solicitação também aumenta. A geração de tokens de saída consome mais recursos do que o processamento de tokens de entrada. O trabalho necessário para cada solicitação cresce de forma não linear à medida que as contagens de tokens de entrada ou saída aumentam, significando que, para uma determinada quantidade de unidades de modelo, o seu ponto de extremidade consegue processar:

  • Várias pequenas solicitações ao mesmo tempo.
  • Menos pedidos de contextos longos ao mesmo tempo antes de ficar sem capacidade.

Por exemplo, com uma carga de trabalho de tamanho médio com 3500 tokens de entrada e 300 tokens de saída, você pode estimar a taxa de transferência de tokens por segundo para um determinado número de unidades de modelo:

Modelo Unidades Modelo Tokens estimados por segundo
Lama 4 Maverick 50 3250

Modelos que usam unidades de modelo

Os modelos a seguir usam unidades de modelo para provisionar a capacidade de inferência:

  • OpenAI GPT OSS 120B
  • OpenAI GPT OSS 20B
  • Google Gemma 3 12B
  • Meta Llama 4 Maverick
  • Alibaba Cloud Qwen3-Next 80B A3B Instruct (prévia)
  • Alibaba Cloud Qwen3-Embedding-0.6B (prévia)

Observação

Model serving endpoints que servem modelos das seguintes famílias de modelos antigos fornecem capacidade de inferência com base em intervalos de tokens por segundo configurados durante a criação do endpoint:

  • Meta Llama 3,3
  • Meta Llama 3,2 3B
  • Meta Llama 3,2 1B
  • Meta Llama 3,1
  • GTE v1.5 (Inglês)
  • BGE v1.5 (Inglês)
  • DeepSeek R1 (não disponível no Catálogo Unity)
  • Meta Lama 3
  • Meta Lama 2
  • DBRX
  • Mistral
  • Mixtral
  • TMF