Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
As unidades modelo são uma medida de taxa de transferência que determina quanto trabalho o seu endpoint pode lidar por minuto. Ao criar um novo ponto de extremidade de taxa de transferência provisionada, especifica quantas unidades de modelo provisionar para cada modelo servido.
A quantidade de trabalho necessária para processar cada solicitação para seu endpoint depende do tamanho da entrada e da saída gerada. À medida que o número de tokens de entrada e saída aumenta, a quantidade de trabalho necessária para processar uma solicitação também aumenta. A geração de tokens de saída consome mais recursos do que o processamento de tokens de entrada. O trabalho necessário para cada solicitação cresce de forma não linear à medida que as contagens de tokens de entrada ou saída aumentam, significando que, para uma determinada quantidade de unidades de modelo, o seu ponto de extremidade consegue processar:
- Várias pequenas solicitações ao mesmo tempo.
- Menos pedidos de contextos longos ao mesmo tempo antes de ficar sem capacidade.
Por exemplo, com uma carga de trabalho de tamanho médio com 3500 tokens de entrada e 300 tokens de saída, você pode estimar a taxa de transferência de tokens por segundo para um determinado número de unidades de modelo:
| Modelo | Unidades Modelo | Tokens estimados por segundo |
|---|---|---|
| Lama 4 Maverick | 50 | 3250 |
Modelos que usam unidades de modelo
Os modelos a seguir usam unidades de modelo para provisionar a capacidade de inferência:
- OpenAI GPT OSS 120B
- OpenAI GPT OSS 20B
- Google Gemma 3 12B
- Meta Llama 4 Maverick
- Alibaba Cloud Qwen3-Next 80B A3B Instruct (prévia)
- Alibaba Cloud Qwen3-Embedding-0.6B (prévia)
Observação
Model serving endpoints que servem modelos das seguintes famílias de modelos antigos fornecem capacidade de inferência com base em intervalos de tokens por segundo configurados durante a criação do endpoint:
- Meta Llama 3,3
- Meta Llama 3,2 3B
- Meta Llama 3,2 1B
- Meta Llama 3,1
- GTE v1.5 (Inglês)
- BGE v1.5 (Inglês)
- DeepSeek R1 (não disponível no Catálogo Unity)
- Meta Lama 3
- Meta Lama 2
- DBRX
- Mistral
- Mixtral
- TMF