Implantar modelos Foundry da Microsoft na computação gerenciada com cobrança conforme o uso (clássica)

Aplica-se somente a:Portal Foundry (clássico). Este artigo não está disponível para o novo portal do Foundry. Saiba mais sobre o novo portal.

Nota

Links neste artigo podem abrir conteúdo na nova documentação do Microsoft Foundry em vez da documentação da Foundry (clássica) que você está exibindo agora.

Modelos da Foundry da Microsoft incluem um catálogo abrangente de modelos organizados em duas categorias: modelos vendidos diretamente pelo Azure e modelos de parceiros e comunidade. Os modelos de parceiros e comunidade, que você pode implantar na computação gerenciada, são modelos abertos ou protegidos. Neste artigo, você aprenderá a usar modelos protegidos de parceiros e comunidade, oferecidos por meio de Azure Marketplace, para implantação em computação gerenciada com cobrança paga conforme o uso.

Pré-requisitos

  • Uma assinatura Azure com uma forma de pagamento válida. As assinaturas de Azure gratuitas ou de avaliação não funcionam. Se você não tiver uma assinatura Azure, criar uma conta de Azure paga para começar.

  • Se você não tiver um, crie um projeto de hub para o Foundry. Você pode implantar a computação gerenciada usando um projeto de hub. Um projeto da Foundry não funcionará para essa finalidade.

  • Habilitação para compras no Azure Marketplace para sua assinatura do Azure.

  • Azure controles de acesso baseados em função (Azure RBAC) concedem acesso às operações no portal do Foundry. Para executar as etapas neste artigo, sua conta de usuário deve receber uma função personalizada com as permissões a seguir. As contas de usuário atribuídas à função Owner ou Contributor para a assinatura Azure também podem criar implantações. Para obter mais informações sobre permissões, consulte o controle de acesso baseado em função no portal do Foundry.

  • Na assinatura da Azure, para inscrever o workspace/projeto na oferta do Azure Marketplace:

    • Microsoft.MarketplaceOrdering/agreements/offers/plans/read
    • Microsoft. MarketplaceOrdering/agreements/offers/plans/sign/action
    • Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
    • Microsoft. Marketplace/offerTypes/publishers/offers/plans/agreements/read
    • Microsoft. SaaS/register/action
  • No grupo de recursos, para criar e usar o recurso SaaS:

    • Microsoft. SaaS/resources/read
    • Microsoft. SaaS/resources/write
  • No espaço de trabalho— para distribuir endpoints:

    • Microsoft. MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
    • Microsoft. MachineLearningServices/workspaces/onlineEndpoints/*

Escopo da assinatura e unidade de medida para oferta do Azure Marketplace

A Foundry oferece uma experiência fluida de assinatura e transação para modelos protegidos, enquanto você cria e consome suas implantações de modelo dedicadas em escala. A implantação de modelos protegidos na computação gerenciada envolve a cobrança conforme o uso para o cliente em duas dimensões.

  • Cobrança de computação por hora no Azure Machine Learning para as máquinas virtuais utilizadas na implantação.
  • Cobrança de sobretaxa para o modelo, conforme definido pelo publicador do modelo na oferta do Azure Marketplace.

A cobrança paga conforme o uso do Azure Compute e sobrecarga de modelo é proporcional ao tempo de atividade por minuto das implantações online gerenciadas. A sobretaxa para um modelo é um preço por hora de GPU, definido pelo parceiro (ou editor do modelo) em Azure Marketplace, para todas as GPUs com suporte que você pode usar para implantar o modelo na computação gerenciada do Foundry.

A assinatura de um usuário das ofertas do Azure Marketplace é limitada ao recurso de projeto dentro do Foundry. Se uma assinatura de uma oferta do Azure Marketplace para um modelo específico já existir no projeto, o usuário será informado no assistente de implantação, de que a assinatura já existe para o projeto.

Nota

Para NIM (microsserviços de inferência) NVIDIA, vários modelos são associados a uma única oferta de mercado, portanto, você só precisa assinar a oferta de NIM uma vez em um projeto para poder implantar todos os NIMs disponibilizados pela NVIDIA no catálogo de modelo Foundry. Se você quiser implantar NIMs em um projeto diferente sem nenhuma assinatura SaaS existente, será necessário assinar novamente a oferta.

Para localizar todas as assinaturas SaaS que existem em uma assinatura Azure:

  1. Entre no portal Azure e acesse sua assinatura Azure.

  2. Selecione Subscriptions e selecione sua assinatura Azure para abrir sua página de visão geral.

  3. SelecioneRecursos de > para ver a lista de recursos.

  4. Use o filtro Tipo para selecionar o tipo de recurso SaaS.

A sobretaxa baseada em consumo vai para a assinatura saaS associada e cobra o usuário por meio de Azure Marketplace. Você pode exibir a fatura na guia Visão geral da respectiva assinatura SaaS.

Assinar e implantar em ambiente de computação gerenciado

Dica

Como você pode customize o painel esquerdo no portal do Microsoft Foundry, você pode ver itens diferentes dos mostrados nestas etapas. Se você não vir o que está procurando, selecione ... Mais na parte inferior do painel esquerdo.

  1. Entre no Microsoft Foundry. Certifique-se de que o alternador New Foundry está desativado. Essas etapas se referem ao Foundry (clássico).

  2. Se você ainda não estiver em seu projeto, selecione-o.

  3. Selecione o catálogo de modelos no painel esquerdo.

  4. Filtre a lista de modelos selecionando a Coleção e o modelo de sua escolha. Este artigo usa o Comando A do Cohere na lista de modelos com suporte para ilustração.

  5. Na página do modelo, selecione Usar este modelo para abrir o assistente de implantação.

  6. Caso as opções de compra sejam apresentadas, selecione Computação Gerenciada.

  7. Se você não tiver cota dedicada, marque a caixa de seleção ao lado da instrução: Quero usar a cota compartilhada e reconheço que esse ponto de extremidade será excluído em 168 horas.

  8. Escolha entre um dos SKUs de VM (máquina virtual) com suporte para o modelo. É necessário ter cota de computação do Azure Machine Learning para esse SKU em sua assinatura do Azure.

  9. Selecione Personalizar para especificar sua configuração de implantação para parâmetros como a contagem de instâncias. Você também pode selecionar um ponto de extremidade existente para a implantação ou criar um novo. Para o exemplo, especifique uma contagem de instâncias como 1 e crie um novo endpoint para a implantação.

    Captura de tela da tela de configuração de implantação para um modelo protegido no Foundry.

  10. Selecione Avançar para prosseguir para a página de divisão de preços .

  11. Examine a divisão de preços para a implantação, os termos de uso e o contrato de licença associados à oferta do modelo em Azure Marketplace. A divisão de preços informa qual seria o preço agregado do modelo implantado, em que a sobretaxa para o modelo é uma função do número de GPUs na instância da VM selecionada nas etapas anteriores. Além da sobretaxa aplicável para o modelo, os encargos de computação do Azure também se aplicam, com base na configuração de implantação. Se você tiver reservas existentes ou plano de poupança do Azure, a fatura das cobranças de computação honra e reflete o preço da VM com desconto.

    Captura de tela da página de divisão de preços para uma implantação de modelo protegido no Foundry.

  12. Marque a caixa de seleção para reconhecer que você entende e concorda com os termos de uso. Em seguida, selecione Implantar. A Foundry cria sua assinatura para a oferta do marketplace e, em seguida, cria a implantação do modelo em uma computação gerenciada. Leva cerca de 15 a 20 minutos para a implantação ser concluída.

Consumir implantações

Depois de criar sua implantação com êxito, siga estas etapas para consumi-la:

  1. Selecione Modelos + Pontos de Extremidade em Meus ativos em seu projeto Foundry.
  2. Selecione sua implantação na guia Implantações de modelo .
  3. Vá para a guia Teste para realizar inferências de exemplo no endpoint.
  4. Retorne à guia Detalhes para copiar o "URI de destino" da implantação, que você pode usar para executar a inferência com código.
  5. Vá para a guia Consumir da implantação para encontrar exemplos de código para consumo.

Isolamento de rede de implantações

Você pode implantar coleções no catálogo de modelos em suas redes isoladas usando a rede virtual gerenciada do workspace. Para obter mais informações sobre como configurar suas redes gerenciadas do workspace, consulte Configurar uma rede virtual gerenciada para permitir a saída da Internet.

Limitação

Um projeto Foundry com acesso de entrada de rede pública desabilitado só pode suportar uma única implementação ativa de um dos modelos protegidos do catálogo. Tentativas de criar implantações mais ativas resultam em falhas na criação das implantações.

Modelos com suporte

As seções a seguir listam os modelos com suporte para implantação de computação gerenciada com cobrança conforme o uso, agrupados por coleção.

Boson AI

Modelo Tarefa
bosonai-higgs-audio-v3-stt Reconhecimento automático de fala
Higgs-Audio-v2.5 Geração de áudio

Cohere

Modelo Tarefa
Comando A Conclusão do chat
Inserir v4 Embeddings
Rerank v3.5 Classificação de texto
Cohere-rerank-v4.0-pro reclassificação de texto
Cohere-rerank-v4.0-fast reordenamento de classificação de texto

Domyn

Modelo Tarefa
Domyn-Large Conclusão do chat

Inception Labs

Modelo Tarefa
Mercúrio Conclusão do chat, geração de texto, resumo

NVIDIA

Os microsserviços de inferência NVIDIA (NIM) são contêineres criados pela NVIDIA para modelos de IA otimizados, pré-treinados e personalizados que são executados em GPUs NVIDIA. Você pode implantar NIMs NVIDIA disponíveis no catálogo de modelos do Foundry com uma assinatura Standard na oferta NVIDIA NIM SaaS no Azure Marketplace.

Algumas coisas especiais a serem observadas sobre NIMs são:

  • Os NIMs incluem uma avaliação de 90 dias. A avaliação se aplica a todos os NIMs associados a uma assinatura SaaS específica e começa a partir do momento em que a assinatura SaaS é criada.

  • Assinaturas SaaS no escopo de um projeto do Foundry. Como vários modelos estão associados a uma única oferta de Azure Marketplace, você só precisa assinar uma vez a oferta nim dentro de um projeto e, em seguida, você pode implantar todos os NIMs oferecidos pela NVIDIA no catálogo de modelos do Foundry. Se você quiser implantar NIMs em um projeto diferente sem nenhuma assinatura SaaS existente, será necessário assinar novamente a oferta.

Modelo Tarefa
NVIDIA-Nemotron-3-Super-NIM-microsserviço Conclusão do chat, resposta a perguntas, resumo, geração de texto, resumo de texto
microsserviço Openfold3_1_2_0-NIM Previsão de estrutura complexa biomolecular
Llama-3.3-Nemotron-Super-49B-v1-NIM-microsserviço Conclusão do chat
Llama-3.1-Nemotron-Nano-8B-v1-NIM-Microsserviço Conclusão do chat
Deepseek-R1-Distill-Llama-8B-NIM-microsserviço Conclusão do chat
Llama-3.3-70B-Instruct-NIM-microsserviço Conclusão do chat
Llama-3.1-8B-Instruct-NIM-microsserviço Conclusão do chat
Mistral-7B-Instruct-v0.3-NIM-microservice Conclusão do chat
Mixtral-8x7B-Instruct-v0.1-NIM-microsserviço Conclusão do chat
Llama-3.2-NV-embedqa-1b-v2-NIM-microsserviço Embeddings
Llama-3.2-NV-rerankqa-1b-v2-NIM-microservice Classificação de texto
Openfold2-NIM-microsserviço Associador de Proteína
ProteinMPNN-NIM-microsserviço Ligador de Proteína
MSA-search-NIM-microservice Associador de Proteína
Rfdiffusion-NIM-microsserviço Associador de Proteína
NVIDIA-Nemotron-Nano-9b-v2-NIM-microsserviço Conclusão do chat
Trellis-NIM-microsserviço Imagem para 3D, Texto para 3D, geração 3D
Cosmos-reason1-NIM-microsserviço Verificação de conclusão de tarefa, Possibilidade de ação, Predição de próxima ação plausível
Microsserviço Evo2-40b-NIM- Genomics
Boltz2-NIM-microsserviço Predição de Estrutura
Llama-3.3-Nemotron-Super-49B-v1.5-NIM-microsserviço Conclusão do chat, Resumo

Consumir implementações do NVIDIA NIM

Depois de criar sua implantação, siga as etapas descritas em Consumir implantações para realizar o consumo.

NVIDIA NIMs no Foundry expõem uma API compatível com OpenAI. Consulte a documentação da API para saber mais sobre o payload suportado. O model parâmetro para NIMs na Foundry é definido como um valor padrão dentro do contêiner e não é necessário no conteúdo da solicitação para o ponto de extremidade online. A guia Consume da implantação do NIM no Foundry inclui exemplos de código de inferência com a URL destinada à sua implantação.

Você também pode consumir implantações de NIM usando o Foundry Models SDK, com limitações que incluem:

Desenvolver e executar agentes com endpoints NIM

Os seguintes NIMs NVIDIA do tipo de tarefa de conclusões de chat no catálogo de modelos podem ser usados para criar e executar agentes usando o Serviço de Agente com várias ferramentas com suporte, com os dois requisitos adicionais a seguir:

  1. Crie uma conexão sem servidor para o projeto usando o ponto de extremidade NIM e a chave. A URL de destino para o endpoint NIM deve ser https://<endpoint-name>.region.inference.ml.azure.com/v1/ na conexão.
  2. Defina o parâmetro de modelo no corpo da solicitação como sendo do formulário, https://<endpoint>.region.inference.ml.azure.com/v1/@<parameter value per table below> enquanto cria e executa agentes.
NVIDIA NIM model valor do parâmetro
Llama-3.3-70B-Instruct-NIM-microsserviço meta/llama-3.3-70b-instruct
Llama-3.1-8B-Instruct-NIM-microsserviço meta/llama-3.1-8b-instruct
Mistral-7B-Instruct-v0.3-NIM-microsserviço mistralai/mistral-7b-instruct-v0.3

Verificação de segurança

A NVIDIA garante a segurança e a confiabilidade das imagens de contêiner NVIDIA NIM por meio da melhor verificação de vulnerabilidades, gerenciamento rigoroso de patch e processos transparentes. Microsoft funciona com a NVIDIA para obter os patches mais recentes das NIMs para fornecer software seguro, estável e confiável de nível de produção no Foundry.

Você pode consultar a hora da última atualização para o NIM no painel direito da página de visão geral do modelo. Você pode implementar novamente para consumir a versão mais recente do NIM da NVIDIA no Foundry.

IA de Paige

Modelo Tarefa
Virchow2G Extração de recursos de imagem
Virchow2G-Mini Extração de características de imagem

Voyage AI

Modelo Tarefa
voyage-3.5-embedding-model Embeddings