Unidades de modelo na taxa de transferência provisionada

As unidades de modelo são uma unidade de processamento que determina quanto trabalho seu endpoint é capaz de processar por minuto. Ao criar um novo ponto de extremidade de taxa de transferência provisionada, especifique quantas unidades de modelo serão provisionadas para cada modelo atendido.

A quantidade de trabalho necessária para processar cada requisição ao endpoint depende do tamanho da entrada e da saída gerada. À medida que o número de tokens de entrada e saída aumenta, a quantidade de trabalho necessária para processar uma solicitação também aumenta. Gerar tokens de saída é mais intensivo em recursos do que processar tokens de entrada. O trabalho necessário para cada solicitação cresce de forma não linear à medida que as contagens de token de entrada ou saída aumentam, o que significa que, para uma determinada quantidade de unidades de modelo, seu ponto de extremidade pode lidar com:

Várias solicitações pequenas de cada vez.
Menos solicitações de contexto longo de cada vez antes de ficar sem capacidade.

Por exemplo, com uma carga de trabalho de tamanho médio com 3.500 tokens de entrada e 300 tokens de saída, você pode estimar os tokens por segundo para um determinado número de unidades de modelo:

Modelo	Unidades de modelo	Tokens estimados por segundo
Llama 4 Maverick	50	3250

Modelos que usam unidades de modelo

Todos os modelos de base compatíveis com throughput provisionado provisionam capacidade de inferência usando unidades de modelo, com exceção dos modelos legados listados abaixo.

Observação

Pontos de extremidade que servem modelos das seguintes famílias de modelos legadas provisionam capacidade de inferência com base em intervalos de tokens por segundo configurados durante a criação do ponto de extremidade.

Meta Llama 3.3
Meta Llama 3.2 3B
Meta Llama 3.2 1B
Meta Llama 3.1
GTE v1.5 (inglês)
BGE v1.5 (inglês)
DeepSeek R1 (não disponível no Catálogo do Unity)
Meta Llama 3
Meta Llama 2
DBRX
Mistral
Mixtral
Ministério Público do Trabalho

Comentários

Esta página foi útil?

Last updated on 2026-06-01

Unidades de modelo na taxa de transferência provisionada

Modelos que usam unidades de modelo

Comentários

Recursos adicionais