Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
As unidades de modelo são uma unidade de processamento que determina quanto trabalho seu endpoint é capaz de processar por minuto. Ao criar um novo ponto de extremidade de taxa de transferência provisionada, especifique quantas unidades de modelo serão provisionadas para cada modelo atendido.
A quantidade de trabalho necessária para processar cada requisição ao endpoint depende do tamanho da entrada e da saída gerada. À medida que o número de tokens de entrada e saída aumenta, a quantidade de trabalho necessária para processar uma solicitação também aumenta. Gerar tokens de saída é mais intensivo em recursos do que processar tokens de entrada. O trabalho necessário para cada solicitação cresce de forma não linear à medida que as contagens de token de entrada ou saída aumentam, o que significa que, para uma determinada quantidade de unidades de modelo, seu ponto de extremidade pode lidar com:
- Várias solicitações pequenas de cada vez.
- Menos solicitações de contexto longo de cada vez antes de ficar sem capacidade.
Por exemplo, com uma carga de trabalho de tamanho médio com 3.500 tokens de entrada e 300 tokens de saída, você pode estimar os tokens por segundo para um determinado número de unidades de modelo:
| Modelo | Unidades de modelo | Tokens estimados por segundo |
|---|---|---|
| Llama 4 Maverick | 50 | 3250 |
Modelos que usam unidades de modelo
Todos os modelos de base compatíveis com throughput provisionado provisionam capacidade de inferência usando unidades de modelo, com exceção dos modelos legados listados abaixo.
Observação
Pontos de extremidade que servem modelos das seguintes famílias de modelos legadas provisionam capacidade de inferência com base em intervalos de tokens por segundo configurados durante a criação do ponto de extremidade.
- Meta Llama 3.3
- Meta Llama 3.2 3B
- Meta Llama 3.2 1B
- Meta Llama 3.1
- GTE v1.5 (inglês)
- BGE v1.5 (inglês)
- DeepSeek R1 (não disponível no Catálogo do Unity)
- Meta Llama 3
- Meta Llama 2
- DBRX
- Mistral
- Mixtral
- Ministério Público do Trabalho