Impor limites de tokens para modelos

O Microsoft Foundry Control Plane aplica limites de taxa de tokens por minuto (TPM) e quotas totais de tokens para implementações de modelos no âmbito do projeto. Esta implementação previne o consumo descontrolado de tokens e alinha o uso com as orientações organizacionais. O Plano de Controle da Foundry integra-se com gateways de IA para fornecer aplicação avançada de políticas aos modelos.

Este artigo explica como configurar limites de taxa de tokens e quotas de tokens.

Pré-requisitos

Compreender portais de IA

Quando utiliza um gateway de IA com o Foundry Control Plane para fornecer aplicação avançada de políticas para modelos, o gateway de IA situa-se entre os clientes e as implementações dos modelos. Faz com que todos os pedidos passem pela instância de Gestão de API associada a ela.

Os limites aplicam-se ao nível do projeto. Ou seja, cada projeto pode ter as suas próprias definições de TPM e quotas.

Diagrama do fluxo lógico dos pedidos do cliente que passam por API Management do Azure como gateway de IA antes de chegar às implementações de modelos dentro de um projeto.

Use um gateway de IA para:

  • Contenção de tokens por múltiplas equipas (evitar que um projeto monopolize a capacidade).
  • Controlo de custos limitando o uso agregado.
  • Limites de conformidade para cargas de trabalho reguladas (impor limites de utilização previsíveis).

Configurar os limites dos tokens

Pode configurar limites de tokens para implementações específicas de modelos dentro dos seus projetos:

  1. Iniciar sessão no Microsoft Foundry. Certifica-te de que a opção New Foundry está ativada. Estes passos referem-se à Foundry (nova).

  2. Selecionar Operar>Administrador.

  3. Na lista de AI Gateway , selecione o gateway que quer usar.

  4. No painel de detalhes do gateway que aparece, selecione Gestão de Tokens.

  5. Selecionar + Definir limite para criar um novo limite para a implementação de um modelo.

  6. Selecione o projeto e a implementação que pretende restringir e introduza um valor para Limite (Token por minuto).

  7. Selecione Criar para guardar as suas alterações.

Captura de ecrã do painel de definições do projeto que mostra caixas de entrada para tokens por minuto e limites totais de quota de tokens.

Compreenda as janelas de quotas

Os limites dos tokens têm duas dimensões complementares de fiscalização:

  • Limite de taxa TPM: Limita o consumo de tokens a um máximo configurado por minuto. Quando os pedidos ultrapassam o limite de TPM, o chamador recebe um 429 Too Many Requests código de estado de resposta.

  • Quota total de tokens: Limita o consumo de tokens a um máximo configurado por período de quota (por exemplo, horário, diário, semanal, mensal ou anual). Quando os pedidos excedem a quota, o chamador recebe um 403 Forbidden código de estado de resposta.

Se enviar muitos pedidos em simultâneo, o consumo de tokens pode temporariamente exceder os limites configurados até que as respostas sejam processadas.

Ajustar o valor de uma quota ou TPM afeta decisões subsequentes de fiscalização.

Para mais informações, consulte AI gateway em API Management do Azure e Limit large language model API token usage.

Verificar a fiscalização

  1. Envie pedidos de teste para um endpoint de implementação do modelo usando a URL e a chave do gateway do projeto.

  2. Aumente gradualmente a frequência dos pedidos até que o limite de TPM seja ativado.

  3. Registar os tokens acumulados até a quota ser ativada.

  4. Valide isso:

    • 429 Too Many Requests (resposta com limitação de taxa) é devolvida quando os pedidos excedem o limite de TPM.
    • 403 Forbidden (erro de quota) é devolvido quando os pedidos esgotam a quota.

Ajustar limites

  1. Volte às definições do AI Gateway do projeto.

  2. Modificar os valores de TPM ou de quotas.

  3. Guarda as alterações. Novos limites aplicam-se imediatamente a pedidos subsequentes.

Resolução de problemas

Problema Causa possível Ação
A instância de Gestão de API não aparece Atraso no provisionamento Atualiza após alguns minutos.
Os limites não são aplicados Má configuração ou projeto não ligado Reabra as definições e confirme que a opção de aplicação está ativada. Confirme que o gateway de IA está ativado para o projeto e que os limites corretos estão definidos.
A latência é elevada após a ativação Gestão de APIs cold start ou incompatibilidade regional Verifique a região de Gestão de APIs versus a região de recursos. Ligue diretamente para o modelo e compare o resultado com a chamada via proxy pelo gateway de IA para identificar se problemas de desempenho estão relacionados com o gateway.

Se a consola de administração estiver lenta, tente novamente após um breve intervalo.