Gerir e aumentar quotas de recursos com o Microsoft Foundry (projetos Foundry)

A Quota oferece flexibilidade para gerir ativamente a alocação dos limites de taxa entre as implementações dentro da sua subscrição. O Azure atribui quotas por subscrição, por região e por modelo em unidades de tokens por minuto (TPM). Diferentes tipos de implementação, como Standard e Provisioned, têm mecânicas de quotas distintas. Para detalhes completos sobre limites e níveis de quotas padrão, consulte quotas e limites do Azure OpenAI.

Este artigo explica o processo de gestão das quotas para os seus modelos Microsoft Foundry implementados num projeto Foundry, incluindo como visualizar as alocações atuais e os aumentos de pedidos.

Pré-requisitos

  • Uma subscrição do Azure. Crie um gratuitamente.
  • Um projeto da Foundry.
  • Função de Leitor de Utilizações dos Serviços Cognitivos ao nível da subscrição, para visualizar a quota alocada.
  • Proprietário ou Contribuinte na subscrição, para solicitar aumentos de quota.
  • Papel de Contribuidor de Serviços Cognitivos combinado com Leitor de Usos de Serviços Cognitivos, para editar a alocação de quotas no portal Foundry.

Quota partilhada da fundição

A Foundry fornece um conjunto de quotas partilhadas que diferentes utilizadores de várias regiões podem usar em simultâneo. Dependendo da disponibilidade, os utilizadores podem aceder temporariamente à quota do pool partilhado e usar a quota para realizar testes durante um período limitado de tempo. A duração específica depende do caso de uso. Ao utilizar temporariamente a quota disponível no pool de quotas, já não precisa de abrir um pedido de suporte para um aumento temporário de quota nem de esperar que o seu pedido de quota seja aprovado antes de poder avançar com a sua carga de trabalho.

Pode usar o pool de quotas partilhado para testar inferências para modelos Foundry a partir do catálogo de modelos. Use a quota partilhada apenas para criar endpoints de teste temporários, não endpoints de produção. Para endpoints em produção, deve solicitar uma quota dedicada. A faturação pela quota partilhada é baseada no uso.

Ver e solicitar quotas no portal Foundry

Utilize quotas para gerir a alocação de quotas de modelos entre múltiplos projetos Foundry na mesma subscrição.

  1. Iniciar sessão no Microsoft Foundry. Certifica-te de que a opção New Foundry está ativada. Estes passos referem-se à Foundry (nova).

  2. Os projetos ajudam a organizar o seu trabalho. O projeto em que estás a trabalhar aparece no canto superior esquerdo. Se quiseres criar um novo projeto, seleciona o nome do projeto e depois Cria um novo projeto.

  3. Selecione Operar no canto superior direito da navegação.

  4. Selecione Quota no painel esquerdo para aceder ao painel de Quota. A vista de quotas tem dois separadores:

    • Token por minuto — Visualize e gere as quotas de tokens por minuto (TPM) para implementações padrão.
    • Unidade de débito provisionada — Visualize e gere as alocações da unidade de débito provisionada (PTU) para implementações provisionadas, incluindo ferramentas de estimativa de capacidade.
  5. Selecione qualquer uma das implementações na lista para abrir o painel de detalhes do lado direito. O painel de detalhes mostra a quota atual da implantação, o uso e as implementações afiliadas.

  6. No painel de detalhes da implementação, vá para a seção Implementações Afiliadas que usam quota partilhada. Selecione o ícone de lápis na coluna Ações da tabela para editar a alocação da cota para a implementação e libertar cotas não utilizadas ou aumentar a alocação conforme necessário.

  7. Selecione o botão Solicitar quota no canto superior direito para solicitar aumentos de quota para o tipo padrão de implantação.

Nota

Depois de editar uma quota ou submeter um pedido, permita até 15 minutos para que as alterações se propaguem. Atualize a página da Quota para verificar a alocação atualizada.

Resolução de problemas

Se encontrar problemas ao visualizar ou pedir quotas, experimente estas soluções:

Problema Solução
A página de quotas está vazia ou não mostra alocações Verifique se tem a função de Leitor de Utilizações de Serviços Cognitivos a nível de subscrição. Verifique se está a ver a subscrição correta no portal.
O botão de pedido de quota está desativado Verifica se tens o papel de Proprietário ou Contribuinte na subscrição. Algumas combinações de modelos e regiões podem não suportar aumentos de quotas.
Alteração da quota não refletida após aprovação As alterações de quotas podem demorar até 15 minutos a propagar-se. Atualize a página Quota. Se o problema persistir após 24 horas, contacte suporte do Azure.
Não consigo encontrar uma quota para um modelo específico Verifique a disponibilidade regional. Nem todos os modelos estão disponíveis em todas as regiões. Veja Suporte por região.