Unidades de modelo na taxa de transferência provisionada

As unidades modelo são uma medida de taxa de transferência que determina quanto trabalho o seu endpoint pode lidar por minuto. Ao criar um novo ponto de extremidade de taxa de transferência provisionada, especifica quantas unidades de modelo provisionar para cada modelo servido.

A quantidade de trabalho necessária para processar cada solicitação para seu endpoint depende do tamanho da entrada e da saída gerada. À medida que o número de tokens de entrada e saída aumenta, a quantidade de trabalho necessária para processar uma solicitação também aumenta. A geração de tokens de saída consome mais recursos do que o processamento de tokens de entrada. O trabalho necessário para cada solicitação cresce de forma não linear à medida que as contagens de tokens de entrada ou saída aumentam, significando que, para uma determinada quantidade de unidades de modelo, o seu ponto de extremidade consegue processar:

Várias pequenas solicitações ao mesmo tempo.
Menos pedidos de contextos longos ao mesmo tempo antes de ficar sem capacidade.

Por exemplo, com uma carga de trabalho de tamanho médio com 3500 tokens de entrada e 300 tokens de saída, você pode estimar a taxa de transferência de tokens por segundo para um determinado número de unidades de modelo:

Modelo	Unidades Modelo	Tokens estimados por segundo
Lama 4 Maverick	50	3250

Modelos que usam unidades de modelo

Os modelos a seguir usam unidades de modelo para provisionar a capacidade de inferência:

OpenAI GPT OSS 120B
OpenAI GPT OSS 20B
Google Gemma 3 12B
Meta Llama 4 Maverick
Alibaba Cloud Qwen3-Next 80B A3B Instruct (prévia)
Alibaba Cloud Qwen3-Embedding-0.6B (prévia)

Observação

Model serving endpoints que servem modelos das seguintes famílias de modelos antigos fornecem capacidade de inferência com base em intervalos de tokens por segundo configurados durante a criação do endpoint:

Meta Llama 3,3
Meta Llama 3,2 3B
Meta Llama 3,2 1B
Meta Llama 3,1
GTE v1.5 (Inglês)
BGE v1.5 (Inglês)
DeepSeek R1 (não disponível no Catálogo Unity)
Meta Lama 3
Meta Lama 2
DBRX
Mistral
Mixtral
TMF

Comentários

Esta página foi útil?

Last updated on 2026-04-11

Partilhar via

Unidades de modelo na taxa de transferência provisionada

Modelos que usam unidades de modelo

Comentários

Recursos adicionais