Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Microsoft Foundry Control Plane impõe limites de TPM (tokens por minuto) e cotas totais de tokens para implantações de modelo no escopo do projeto. Essa restrição impede o consumo descontrolado de tokens e alinha o uso com as diretrizes organizacionais. O Plano de Controle do Foundry integra-se aos gateways de IA para fornecer aplicação avançada de políticas para modelos.
Este artigo explica como configurar a limitação da taxa de token e as cotas de token.
Pré-requisitos
-
Uma conta Azure com uma assinatura ativa. Se você não tiver uma, crie uma conta de Azure free, que inclui uma assinatura de avaliação gratuita.
Um recurso de fundição com um gateway de IA configurado. Saiba mais sobre como habilitar um gateway de IA para um recurso do Foundry.
Um projeto do Foundry com modelo implantado, integrado ao gateway de IA configurado. Para habilitar um gateway de IA para um projeto, você precisa da função API Management Service Contributor (ou Owner) no recurso Gerenciamento de API do Azure.
Entender os gateways de IA
Quando você usa um gateway de IA com o Control Plane Foundry para fornecer aplicação de políticas avançada para modelos, o gateway de IA fica posicionado entre os clientes e as implementações de modelos. Ela faz com que todas as solicitações fluam por meio da instância de Gerenciamento de API associada a ela.
Os limites se aplicam no nível do projeto. Ou seja, cada projeto pode ter suas próprias configurações de TPM e cota.
Use um gateway de IA para:
- Contenção de token de várias equipes (impedir que um projeto monopolize a capacidade).
- Controle de custo limitando o uso agregado.
- Limites de conformidade para cargas de trabalho regulamentadas (impor tetos de uso previsíveis).
Configurar limites de token
Você pode configurar limites de token para implantações de modelo específicas em seus projetos:
-
Entre no Microsoft Foundry. Verifique se o interruptor da Nova Fundição está ativado. Essas etapas referem-se ao Foundry (versão nova).
Selecione Operar>Administrador.
Na lista gateway de IA , selecione o gateway que você deseja usar.
No painel de detalhes do gateway exibido, selecione Gerenciamento de tokens.
Selecione + Definir limite para criar um novo limite para uma implantação de modelo.
Selecione o projeto e a implantação que você deseja restringir e insira um valor para Limite (Token por minuto).
Selecione Criar para salvar suas alterações.
Entender janelas de alocação de cota
Os limites de token têm duas dimensões de imposição complementares:
Limite de taxa do TPM: limita o consumo de token a um máximo configurado por minuto. Quando as solicitações excedem o limite de TPM, o chamador recebe um código de status de resposta
429 Too Many Requests.Cota total de token: limita o consumo de token a um período máximo configurado por cota (por exemplo, por hora, diariamente, semanal, mensal ou anual). Quando as solicitações excedem a cota, o chamador recebe um
403 Forbiddencódigo de status de resposta.
Se você enviar muitas solicitações simultaneamente, o consumo de token poderá exceder temporariamente os limites configurados até que as respostas sejam processadas.
O ajuste de uma cota ou valor de TPM afeta as decisões de imposição subsequentes.
Para obter mais informações, consulte AI gateway in Gerenciamento de API do Azure and Limit large language model API token usage.
Verificar a aplicação
Envie solicitações de teste para um ponto de extremidade de implantação de modelo usando a URL e a chave do gateway do projeto.
Aumente gradualmente a frequência da solicitação até que o limite do TPM seja disparado.
Acompanhe os tokens cumulativos até que o limite seja ativado.
Valide que
-
429 Too Many Requests(resposta com limitação de taxa) é enviada quando as solicitações excedem o limite de TPM. -
403 Forbidden(erro de cota) é retornado quando as solicitações esgotam a cota.
-
Ajustar limites
Retorne às configurações do Gateway de IA do projeto.
Modificar valores de TPM ou cota.
Salve as alterações. Novos limites se aplicam imediatamente às solicitações subsequentes.
Solucionar problemas
| Problema | Causa possível | Ação |
|---|---|---|
| A instância de Gerenciamento de API não aparece | Atraso no provisionamento | Atualize após alguns minutos. |
| Os limites não são impostos | Configuração incorreta ou projeto não vinculado | Reabra as configurações e confirme se o botão de ativação está ligado. Confirme se o gateway de IA está habilitado para o projeto e se os limites corretos estão configurados. |
| A latência é alta após a habilitação | Incompatibilidade de inicialização a frio ou de região no gerenciamento de API | Verifique a região de Gerenciamento de API versus a região do recurso. Acesse o modelo diretamente e compare o resultado com a chamada encaminhada por meio do gateway de inteligência artificial para identificar se os problemas de desempenho estão relacionados ao gateway. |
Se o console de administração estiver lento, tente novamente após um breve intervalo.
Conteúdo relacionado
- gateway de IA no Gerenciamento de API do Azure
- O que é Gerenciamento de API do Azure?
- Limitar o uso de tokens de API de modelo de linguagem de grande escala
- Como usar o controle de acesso baseado em função no Gerenciamento de API do Azure
- controle de acesso baseado em funções para Microsoft Foundry