Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
O Microsoft Foundry Control Plane aplica limites de taxa de tokens por minuto (TPM) e quotas totais de tokens para implementações de modelos no âmbito do projeto. Esta implementação previne o consumo descontrolado de tokens e alinha o uso com as orientações organizacionais. O Plano de Controle da Foundry integra-se com gateways de IA para fornecer aplicação avançada de políticas aos modelos.
Este artigo explica como configurar limites de taxa de tokens e quotas de tokens.
Pré-requisitos
-
Uma conta no Azure com uma subscrição ativa. Se não tiveres uma, cria uma conta Azure free, que inclui uma subscrição de teste gratuita.
Um recurso da Foundry com um gateway de IA configurado. Saiba mais sobre como ativar um gateway de IA para um recurso da Foundry.
Um projeto da Foundry com um modelo implementado, adicionado ao gateway configurado de IA. Para ativar um gateway de inteligência artificial para um projeto, precisa da função de Contribuidor do Serviço de Gestão de API API (ou Administrador) no recurso API Management do Azure.
Compreender portais de IA
Quando utiliza um gateway de IA com o Foundry Control Plane para fornecer aplicação avançada de políticas para modelos, o gateway de IA situa-se entre os clientes e as implementações dos modelos. Faz com que todos os pedidos passem pela instância de Gestão de API associada a ela.
Os limites aplicam-se ao nível do projeto. Ou seja, cada projeto pode ter as suas próprias definições de TPM e quotas.
Use um gateway de IA para:
- Contenção de tokens por múltiplas equipas (evitar que um projeto monopolize a capacidade).
- Controlo de custos limitando o uso agregado.
- Limites de conformidade para cargas de trabalho reguladas (impor limites de utilização previsíveis).
Configurar os limites dos tokens
Pode configurar limites de tokens para implementações específicas de modelos dentro dos seus projetos:
-
Iniciar sessão no Microsoft Foundry. Certifica-te de que a opção New Foundry está ativada. Estes passos referem-se à Foundry (nova).
Selecionar Operar>Administrador.
Na lista de AI Gateway , selecione o gateway que quer usar.
No painel de detalhes do gateway que aparece, selecione Gestão de Tokens.
Selecionar + Definir limite para criar um novo limite para a implementação de um modelo.
Selecione o projeto e a implementação que pretende restringir e introduza um valor para Limite (Token por minuto).
Selecione Criar para guardar as suas alterações.
Compreenda as janelas de quotas
Os limites dos tokens têm duas dimensões complementares de fiscalização:
Limite de taxa TPM: Limita o consumo de tokens a um máximo configurado por minuto. Quando os pedidos ultrapassam o limite de TPM, o chamador recebe um
429 Too Many Requestscódigo de estado de resposta.Quota total de tokens: Limita o consumo de tokens a um máximo configurado por período de quota (por exemplo, horário, diário, semanal, mensal ou anual). Quando os pedidos excedem a quota, o chamador recebe um
403 Forbiddencódigo de estado de resposta.
Se enviar muitos pedidos em simultâneo, o consumo de tokens pode temporariamente exceder os limites configurados até que as respostas sejam processadas.
Ajustar o valor de uma quota ou TPM afeta decisões subsequentes de fiscalização.
Para mais informações, consulte AI gateway em API Management do Azure e Limit large language model API token usage.
Verificar a fiscalização
Envie pedidos de teste para um endpoint de implementação do modelo usando a URL e a chave do gateway do projeto.
Aumente gradualmente a frequência dos pedidos até que o limite de TPM seja ativado.
Registar os tokens acumulados até a quota ser ativada.
Valide isso:
-
429 Too Many Requests(resposta com limitação de taxa) é devolvida quando os pedidos excedem o limite de TPM. -
403 Forbidden(erro de quota) é devolvido quando os pedidos esgotam a quota.
-
Ajustar limites
Volte às definições do AI Gateway do projeto.
Modificar os valores de TPM ou de quotas.
Guarda as alterações. Novos limites aplicam-se imediatamente a pedidos subsequentes.
Resolução de problemas
| Problema | Causa possível | Ação |
|---|---|---|
| A instância de Gestão de API não aparece | Atraso no provisionamento | Atualiza após alguns minutos. |
| Os limites não são aplicados | Má configuração ou projeto não ligado | Reabra as definições e confirme que a opção de aplicação está ativada. Confirme que o gateway de IA está ativado para o projeto e que os limites corretos estão definidos. |
| A latência é elevada após a ativação | Gestão de APIs cold start ou incompatibilidade regional | Verifique a região de Gestão de APIs versus a região de recursos. Ligue diretamente para o modelo e compare o resultado com a chamada via proxy pelo gateway de IA para identificar se problemas de desempenho estão relacionados com o gateway. |
Se a consola de administração estiver lenta, tente novamente após um breve intervalo.