Impor limites de tokens para modelos

O Microsoft Foundry Control Plane aplica limites de taxa de tokens por minuto (TPM) e quotas totais de tokens para implementações de modelos no âmbito do projeto. Esta implementação previne o consumo descontrolado de tokens e alinha o uso com as orientações organizacionais. O Plano de Controle da Foundry integra-se com gateways de IA para fornecer aplicação avançada de políticas aos modelos.

Este artigo explica como configurar limites de taxa de tokens e quotas de tokens.

Pré-requisitos

Uma conta no Azure com uma subscrição ativa. Se não tiveres uma, cria uma conta Azure free, que inclui uma subscrição de teste gratuita.
Um recurso da Foundry com um gateway de IA configurado. Saiba mais sobre como ativar um gateway de IA para um recurso da Foundry.
Um projeto da Foundry com um modelo implementado, adicionado ao gateway configurado de IA. Para ativar um gateway de inteligência artificial para um projeto, precisa da função de Contribuidor do Serviço de Gestão de API API (ou Administrador) no recurso API Management do Azure.

Compreender portais de IA

Quando utiliza um gateway de IA com o Foundry Control Plane para fornecer aplicação avançada de políticas para modelos, o gateway de IA situa-se entre os clientes e as implementações dos modelos. Faz com que todos os pedidos passem pela instância de Gestão de API associada a ela.

Os limites aplicam-se ao nível do projeto. Ou seja, cada projeto pode ter as suas próprias definições de TPM e quotas.

Use um gateway de IA para:

Contenção de tokens por múltiplas equipas (evitar que um projeto monopolize a capacidade).
Controlo de custos limitando o uso agregado.
Limites de conformidade para cargas de trabalho reguladas (impor limites de utilização previsíveis).

Configurar os limites dos tokens

Pode configurar limites de tokens para implementações específicas de modelos dentro dos seus projetos:

Iniciar sessão no Microsoft Foundry. Certifica-te de que a opção New Foundry está ativada. Estes passos referem-se à Foundry (nova).
Selecionar Operar>Administrador.
Na lista de AI Gateway , selecione o gateway que quer usar.
No painel de detalhes do gateway que aparece, selecione Gestão de Tokens.
Selecionar + Definir limite para criar um novo limite para a implementação de um modelo.
Selecione o projeto e a implementação que pretende restringir e introduza um valor para Limite (Token por minuto).
Selecione Criar para guardar as suas alterações.

Compreenda as janelas de quotas

Os limites dos tokens têm duas dimensões complementares de fiscalização:

Limite de taxa TPM: Limita o consumo de tokens a um máximo configurado por minuto. Quando os pedidos ultrapassam o limite de TPM, o chamador recebe um 429 Too Many Requests código de estado de resposta.
Quota total de tokens: Limita o consumo de tokens a um máximo configurado por período de quota (por exemplo, horário, diário, semanal, mensal ou anual). Quando os pedidos excedem a quota, o chamador recebe um 403 Forbidden código de estado de resposta.

Se enviar muitos pedidos em simultâneo, o consumo de tokens pode temporariamente exceder os limites configurados até que as respostas sejam processadas.

Ajustar o valor de uma quota ou TPM afeta decisões subsequentes de fiscalização.

Para mais informações, consulte AI gateway em API Management do Azure e Limit large language model API token usage.

Verificar a fiscalização

Envie pedidos de teste para um endpoint de implementação do modelo usando a URL e a chave do gateway do projeto.
Aumente gradualmente a frequência dos pedidos até que o limite de TPM seja ativado.
Registar os tokens acumulados até a quota ser ativada.
Valide isso:
- 429 Too Many Requests (resposta com limitação de taxa) é devolvida quando os pedidos excedem o limite de TPM.
- 403 Forbidden (erro de quota) é devolvido quando os pedidos esgotam a quota.

Ajustar limites

Volte às definições do AI Gateway do projeto.
Modificar os valores de TPM ou de quotas.
Guarda as alterações. Novos limites aplicam-se imediatamente a pedidos subsequentes.

Resolução de problemas

Problema	Causa possível	Ação
A instância de Gestão de API não aparece	Atraso no provisionamento	Atualiza após alguns minutos.
Os limites não são aplicados	Má configuração ou projeto não ligado	Reabra as definições e confirme que a opção de aplicação está ativada. Confirme que o gateway de IA está ativado para o projeto e que os limites corretos estão definidos.
A latência é elevada após a ativação	Gestão de APIs cold start ou incompatibilidade regional	Verifique a região de Gestão de APIs versus a região de recursos. Ligue diretamente para o modelo e compare o resultado com a chamada via proxy pelo gateway de IA para identificar se problemas de desempenho estão relacionados com o gateway.

Se a consola de administração estiver lenta, tente novamente após um breve intervalo.

Comentários

Esta página foi útil?

Last updated on 2026-04-29