Impor limites de token para modelos

Microsoft Foundry Control Plane impõe limites de TPM (tokens por minuto) e cotas totais de tokens para implantações de modelo no escopo do projeto. Essa restrição impede o consumo descontrolado de tokens e alinha o uso com as diretrizes organizacionais. O Plano de Controle do Foundry integra-se aos gateways de IA para fornecer aplicação avançada de políticas para modelos.

Este artigo explica como configurar a limitação da taxa de token e as cotas de token.

Pré-requisitos

Entender os gateways de IA

Quando você usa um gateway de IA com o Control Plane Foundry para fornecer aplicação de políticas avançada para modelos, o gateway de IA fica posicionado entre os clientes e as implementações de modelos. Ela faz com que todas as solicitações fluam por meio da instância de Gerenciamento de API associada a ela.

Os limites se aplicam no nível do projeto. Ou seja, cada projeto pode ter suas próprias configurações de TPM e cota.

Diagrama do fluxo lógico de solicitações de clientes passando pelo Gerenciamento de API do Azure servindo como um gateway de IA antes de atingir as implantações de modelos em um projeto.

Use um gateway de IA para:

  • Contenção de token de várias equipes (impedir que um projeto monopolize a capacidade).
  • Controle de custo limitando o uso agregado.
  • Limites de conformidade para cargas de trabalho regulamentadas (impor tetos de uso previsíveis).

Configurar limites de token

Você pode configurar limites de token para implantações de modelo específicas em seus projetos:

  1. Entre no Microsoft Foundry. Verifique se o interruptor da Nova Fundição está ativado. Essas etapas referem-se ao Foundry (versão nova).

  2. Selecione Operar>Administrador.

  3. Na lista gateway de IA , selecione o gateway que você deseja usar.

  4. No painel de detalhes do gateway exibido, selecione Gerenciamento de tokens.

  5. Selecione + Definir limite para criar um novo limite para uma implantação de modelo.

  6. Selecione o projeto e a implantação que você deseja restringir e insira um valor para Limite (Token por minuto).

  7. Selecione Criar para salvar suas alterações.

Captura de tela do painel de configurações do projeto que mostra caixas de entrada para tokens por minuto e limite total da cota de tokens.

Entender janelas de alocação de cota

Os limites de token têm duas dimensões de imposição complementares:

  • Limite de taxa do TPM: limita o consumo de token a um máximo configurado por minuto. Quando as solicitações excedem o limite de TPM, o chamador recebe um código de status de resposta 429 Too Many Requests.

  • Cota total de token: limita o consumo de token a um período máximo configurado por cota (por exemplo, por hora, diariamente, semanal, mensal ou anual). Quando as solicitações excedem a cota, o chamador recebe um 403 Forbidden código de status de resposta.

Se você enviar muitas solicitações simultaneamente, o consumo de token poderá exceder temporariamente os limites configurados até que as respostas sejam processadas.

O ajuste de uma cota ou valor de TPM afeta as decisões de imposição subsequentes.

Para obter mais informações, consulte AI gateway in Gerenciamento de API do Azure and Limit large language model API token usage.

Verificar a aplicação

  1. Envie solicitações de teste para um ponto de extremidade de implantação de modelo usando a URL e a chave do gateway do projeto.

  2. Aumente gradualmente a frequência da solicitação até que o limite do TPM seja disparado.

  3. Acompanhe os tokens cumulativos até que o limite seja ativado.

  4. Valide que

    • 429 Too Many Requests (resposta com limitação de taxa) é enviada quando as solicitações excedem o limite de TPM.
    • 403 Forbidden (erro de cota) é retornado quando as solicitações esgotam a cota.

Ajustar limites

  1. Retorne às configurações do Gateway de IA do projeto.

  2. Modificar valores de TPM ou cota.

  3. Salve as alterações. Novos limites se aplicam imediatamente às solicitações subsequentes.

Solucionar problemas

Problema Causa possível Ação
A instância de Gerenciamento de API não aparece Atraso no provisionamento Atualize após alguns minutos.
Os limites não são impostos Configuração incorreta ou projeto não vinculado Reabra as configurações e confirme se o botão de ativação está ligado. Confirme se o gateway de IA está habilitado para o projeto e se os limites corretos estão configurados.
A latência é alta após a habilitação Incompatibilidade de inicialização a frio ou de região no gerenciamento de API Verifique a região de Gerenciamento de API versus a região do recurso. Acesse o modelo diretamente e compare o resultado com a chamada encaminhada por meio do gateway de inteligência artificial para identificar se os problemas de desempenho estão relacionados ao gateway.

Se o console de administração estiver lento, tente novamente após um breve intervalo.