Computação gerenciada no Microsoft Foundry (versão prévia)

Note

A computação gerenciada na Foundry está atualmente em versão prévia pública e o registro é necessário para usá-la. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares para Versões Prévias do Microsoft Azure.

A computação gerenciada (versão prévia) é um tipo de implantação no Microsoft Foundry que hospeda modelos de software livre na capacidade de GPU dedicada sem exigir que você provisione máquinas virtuais, opere um cluster do Kubernetes, crie imagens de contêiner ou possua um runtime de modelagem. Microsoft possui a topologia de GPU, o runtime, a imagem do contêiner e a aplicação de patch de segurança. Você escolhe o modelo, o modelo de implantação, a família de aceleradores e o comportamento de dimensionamento que se ajustam à carga de trabalho.

A computação gerenciada usa o mesmo recurso, projeto, ponto de extremidade, autenticação, configuração de rede, SDKs, observabilidade e interface de cobrança do Foundry que qualquer outro tipo de implantação no Foundry. Depois de implantar um modelo com computação gerenciada, o código do aplicativo é o mesmo que qualquer outro modelo de Foundry; somente o nome da implantação muda.

Este artigo explica o tipo de implantação de computação gerenciada no Foundry, os conceitos com os quais você trabalha (instâncias de modelo, templates de implantação, famílias de aceleradores, runtimes), o catálogo a partir do qual você pode implantar, endpoints de inferência, dimensionamento, cobrança e cotas, controle de acesso e limitações atuais. Para obter instruções de implantação passo a passo, consulte Implantar modelos de software livre com computação gerenciada.

Onde a computação gerenciada se encaixa na Foundry

A Foundry oferece três tipos de implantação. A computação gerenciada é o tipo de implantação a ser usado para modelos de software livre na capacidade de GPU dedicada.

Tipo de implantação Para que serve Faturamento Melhor para
Pagamento padrão por token Modelos Foundry vendidos pela Azure Por token de entrada e saída Caminho de menor atrito para começar; tráfego intermitido em modelos hospedados sem planejamento de capacidade.
Capacidade provisionada Modelos do Foundry vendidos pelo Azure Unidades de vazão reservadas Carga previsível e contínua em modelos selecionados do Foundry oferecidos pelo Azure, com latência consistente.
Computação gerenciada Modelos de software livre e de comunidade do catálogo do Foundry Por hora, por família de aceleradores Hospedando modelos de software livre em GPUs dedicadas com runtimes gerenciados pelo Foundry, rede privada e os mesmos SDKs dos outros tipos de implantação.

Todos os três tipos de implantação compartilham um único endpoint do Foundry, os mesmos padrões de autenticação (Microsoft Entra ID e chave), os mesmos SDKs, os mesmos recursos de observabilidade e uma única cobrança. Você pode misturar todos os três tipos de implantação em um único projeto do Foundry e chamá-los do mesmo código do cliente.

Conceitos principais

Esta seção aborda os principais conceitos a serem entendidos antes de usar a implantação de computação gerenciada no Foundry.

Instância do modelo

Uma instância de modelo é a unidade de implantação na computação gerenciada. Você não escolhe um SKU de máquina virtual nem define o tamanho de um nó; em vez disso, descreve a carga de trabalho nos termos do modelo, e o Foundry escolhe a topologia de GPU subjacente. Uma instância pode usar um acelerador ou vários, dependendo do modelo e do modelo de implantação escolhido. Você dimensiona uma implantação alterando o número de instâncias do modelo (o valor capacity na SKU da implantação).

Modelo de implantação

Um modelo de implantação é um ativo nomeado e com versão que codifica como um modelo específico deve ser executado. Um template fixa:

  • O runtime de serviço (por exemplo, vLLM ou SGLang).
  • A família de aceleradores e a quantidade por instância (por exemplo, um H100 80 GB, ou dois A100 80 GB).
  • O comprimento de contexto compatível e quaisquer opções de quantização.
  • Ajustes específicos do ambiente de execução, como analisadores de chamadas de ferramentas e de raciocínio, fluxo de pontuação, sondas de integridade, concorrência de solicitações e quaisquer configurações de extensão de contexto específicas de cada modelo.

Ao criar um script para uma implantação, você faz referência ao ID do modelo, e o Foundry cuida do resto. Cada modelo no catálogo normalmente é fornecido com vários templates que equilibram famílias de aceleradores, tamanho do contexto e latência e taxa de transferência. Por exemplo, o qwen3-32b modelo expõe quatro modelos lado a lado:

Template Runtime Acelerador Contexto
qwen--qwen3-32b--40k-nvidia-a100 vLLM 1 × A100 80 GB 40 K
qwen--qwen3-32b--40k-nvidia-h100 vLLM 1 × H100 80 GB 40 K
qwen--qwen3-32b--128k-nvidia-2xa100 vLLM 2 × A100 80 GB 128 K
qwen--qwen3-32b--128k-nvidia-2xh100 vLLM 2 × H100 80 GB 128 K

Escolher um template é o único ajuste que você faz para como um modelo é executado.

Famílias de aceleradores

As implantações de computação gerenciada têm como destino uma família de aceleradores, não uma SKU de máquina virtual específica. As famílias com suporte são:

  • NVIDIA A100 80 GB (A100_80GB)
  • NVIDIA H100 80 GB (H100_80GB)
  • AMD MI300X 192 GB (MI_300_192GB)

A cota é concedida por família de aceleradores por região.

Ambientes de execução de modelos

A computação gerenciada executa cada modelo em um ambiente de execução de serviço que a Microsoft cria, verifica, assina e atualiza. Você não gerencia nem reconstrói contêineres. O portfólio de runtime é selecionado por arquitetura de modelo:

Runtime Usar para Observações
vLLM Serviço de inferência de LLM de alto rendimento Processamento em lotes contínuo, PagedAttention, paralelismo de tensores, troca dinâmica de LoRA. Padrão para a maioria dos modelos de linguagem grandes.
SGLang Serviço LLM de saída estruturada Geração com restrições de JSON, regex e gramática para cargas de trabalho baseadas em agentes e com uso de ferramentas.
TensorRT-LLM Serviço LLM otimizado para NVIDIA Inferência NVIDIA de baixa latência para famílias de modelos em que o TRT-LLM se destaca em latência ou vazão.
NVIDIA NIM Microsserviços de Inferência NVIDIA Backend TensorRT-LLM com compatibilidade com a API NIM para modelos publicados pela NVIDIA.
Inferência de Inferência de Inserções de Texto (TEI) Incorporações, reclassificadores, classificadores Kernels específicos do acelerador para inserção e recuperação de caminhos quentes.
llama.cpp CPU e serviço de GPU pequena Modelos quantizados em GGUF por trás da mesma API compatível com a OpenAI.
hf-serve Visão, áudio, segmentação e outros pipelines nativos de Transformers Servidor multimodelo da Hugging Face para modalidades fora dos caminhos rápidos de LLMs e embeddings.

Atualizações de runtime e correções de CVEs são aplicadas automaticamente às implantações ativas dos clientes. Você não precisa reimplantar seu modelo para receber uma atualização do runtime.

Modelos com suporte

Você pode usar a computação gerenciada no Foundry para implantar modelos da Hugging Face Collection no catálogo de modelos do Foundry, servidos a partir do registro azure-huggingface. Esses modelos têm os seguintes atributos:

  • Coletado e atualizado semanalmente. Os modelos em alta do ecossistema Hugging Face são adicionados continuamente conforme a comunidade os publica. O catálogo abrange modelos de texto, visão, áudio e multimodal (LLMs e modelos de linguagem visual para chat e agentes), ASR (reconhecimento automático de fala), tradução de fala, inserções, segmentação e geração de imagem.
  • Somente SafeTensors, nenhum código não confiável. Todos os modelos da Coleção passam por triagem. Repositórios que exigiriam a execução de Python de terceiros em tempo de carga (padrões trust_remote_code) são corrigidos ou excluídos.
  • Pesos pré-configurados. Os pesos do modelo são obtidos do Hugging Face uma única vez, validados e armazenados no armazenamento do Azure gerenciado pela Microsoft nas regiões em que o modelo é disponibilizado. As imagens de contêiner residem em um registro gerenciado por Microsoft. Como resultado, as implantações gerenciadas de computação não precisam de acesso de saída à rede para o Hugging Face Hub — você pode implantar em uma rede totalmente privada, sem tráfego de saída.
  • Metadados de licença preservados. Cada cartão de modelo de catálogo captura e exibe a licença upstream. A revisão da licença de acordo com a política de distribuição para empresas da Microsoft ocorre durante a curadoria.

Fluxo de curadoria de modelos

Cada modelo na coleção Hugging Face passa por um pipeline de curadoria de cinco estágios antes de aparecer no catálogo:

  1. Identify trending models: Microsoft identifica modelos de tendência com base em sinais de comunidade, solicitações de parceiros e demanda do cliente.
  2. Tela para conformidade e segurança: cada modelo passa por revisão e inspeção de licença para trust_remote_code padrões e código executável personalizado.
  3. Criar, examinar e publicar imagens de contêiner de tempo de execução: compiladas pela Microsoft, examinadas quanto a CVEs, assinadas e publicadas em um registro de contêineres gerenciado pela Microsoft.
  4. Carregar os pesos para o armazenamento seguro do Azure: validado em relação ao cartão do modelo e armazenado nas regiões em que o modelo é disponibilizado.
  5. Validar e publicar: cada combinação de modelo, runtime e acelerador é testada para conformidade e desempenho da API e, em seguida, publicada no catálogo com um caminho de implantação de um clique.

Pontos de extremidade de inferência

Implantar um modelo em computação gerenciada torna o modelo disponível para inferência no mesmo endpoint unificado do projeto Foundry usado por implantações com pagamento por token e com throughput provisionado. O ponto de extremidade base tem o padrão https://<account>.services.ai.azure.com.

Rotas de endpoint

Uma implantação de computação gerenciada pode ser invocada por meio de duas famílias de rotas no endpoint unificado. A rota escolhida depende se o modelo subjacente e o runtime expõem uma API compatível com OpenAI.

Rota Caminho Aplica-se a Behavior
Rota de implantações gerenciadas (OSS) <endpoint>/managed-deployments/<deployment-name>/ Todas as implantações de computação gerenciada Funciona para cada modelo implantado na computação gerenciada, incluindo modelos sob medida que são enviados com seu próprio SDK. Os modelos que expõem /chat/completions também podem ser chamados por meio dessa rota com o SDK da OpenAI, apontando o cliente base_url para esse caminho.
Rota compatível com OpenAI <endpoint>/openai/v1/ Implantações de computação gerenciadas cujo runtime expõe uma API compatível com OpenAI (por exemplo, vLLM, SGLang, TensorRT-LLM, llama.cpp atendendo chat ou inserções) O SDK da OpenAI pode invocar a implantação definindo base_url para este caminho e passando o nome da implantação no campo model do corpo da solicitação. Se uma solicitação for feita para essa rota usando um nome de implantação cujo modelo ou runtime subjacente não oferece suporte à interface compatível com a OpenAI, o runtime retornará HTTP 404.

Principais pontos principais:

  • Cada implantação de computação gerenciada é acessível pela rota https://<account>.services.ai.azure.com/managed-deployments/<deployment-name>/
  • Qualquer implantação cujo runtime seja compatível com OpenAI também pode ser acessada pela rota https://<account>.services.ai.azure.com/openai/v1/.
  • Use a rota OpenAI quando quiser compartilhar o código do cliente com outras implantações do Foundry.
  • Use a rota de implantações gerenciadas para modelos que enviam um SDK personalizado ou uma API não OpenAI.

Tip

Uma implantação de computação gerenciada de conclusões de chat também pode ser adicionada a um Foundry Agent como um modelo conectado a administradores e chamada por meio da API de Respostas do Foundry com o mesmo SDK do OpenAI, usando a mesma autenticação, ponto de extremidade e observabilidade que qualquer outro modelo de Foundry.

Autenticação de endpoint

As implantações de computação gerenciada usam os mesmos padrões de autenticação que o restante do endpoint do Foundry:

  • Microsoft Entra ID (recomendado). Obtenha um token para o escopo https://ai.azure.com/.default e passe-o como um token Bearer no cabeçalho Authorization. Para chamar uma implantação de computação gerenciada com a Entra ID, a identidade chamadora precisa ter a função Foundry User no escopo da conta do Foundry. O SDK do OpenAI no modo baseado em token e DefaultAzureCredential funciona sem qualquer configuração específica de computação gerenciada.
  • Chave de API da conta. Passe a chave da conta do Foundry como Authorization: Bearer <key>. O SDK do OpenAI envia a chave neste formulário automaticamente quando você define o api_key argumento. As chaves concedem o mesmo acesso em implantações de computação gerenciada, assim como em implantações de pagamento por token e PTU na mesma conta.

Ambas as opções de autenticação funcionam em ambas as rotas de endpoint. Para obter exemplos de código do cliente de ponta a ponta (SDK do OpenAI com Entra ID ou chave de API), consulte Send uma solicitação de teste.

Scaling

Você dimensiona uma implantação de computação gerenciada alterando o número de instâncias de modelo. Quando você define o valor de capacity no SKU da implantação, Foundry ajusta a contagem de GPUs de acordo. O total de GPUs é igual ao número de instâncias de modelo multiplicadas pelas GPUs por instância definidas pelo modelo de implantação escolhido. O Foundry não pede que você defina o tamanho de um nó nem escolha uma família de VMs.

Escopos de cobrança, cota e implantação

A computação gerenciada é cobrada por hora por acelerador. Ao contrário da infraestrutura baseada em VM, em que você aluga servidores inteiros com GPU e paga por cada GPU no servidor, use seu modelo essa GPU ou não, a computação gerenciada cobra por instâncias de modelo. Foundry dimensiona adequadamente cada modelo para o número de GPUs de que ele realmente precisa (uma, duas, quatro ou oito), para que você não pague por aceleradores ociosos alocados à sua carga de trabalho. O custo de uma implantação é:

Aceleradores por instância de modelo × instâncias de modelo × horas em execução × taxa por hora

As taxas por hora variam de acordo com a família de aceleradores (A100, H100, MI300X) e por escopo de implantação. Para obter preços atuais, consulte a calculadora de preços Azure.

Escopo da implantação

A computação gerenciada (versão prévia) atualmente oferece suporte à implantação Global, configurada por meio do nome SKU de implantação GlobalManagedCompute. A implantação global oferece a capacidade de acelerador mais ampla na taxa mais baixa.

Quota

A cota de computação gerenciada é concedida para cada família de aceleradores, em cada região, por meio do processo de cotas do Foundry. A cota de computação gerenciada é separada da cota de VM do Azure. Embora a cota de VM do Azure seja uma alocação de infraestrutura como serviço associada a SKUs regionais específicas de VM, a computação gerenciada é uma oferta de PaaS gerenciada. A cota de VM Azure existente não pode ser aplicada a uma implantação de computação gerenciada.

Para obter detalhes sobre como exibir o uso, atribuir custo a um projeto e solicitar cota, consulte Plane e gerencie custos para Microsoft Foundry e Manage e aumente as cotas.

Controle de acesso

A computação gerenciada usa o modelo RBAC (controle de acesso baseado em função) do Foundry. O conjunto de operações do provedor de recursos do Azure necessárias para criar, ler, atualizar e excluir uma implantação de computação gerenciada está documentado em Controle de acesso baseado em função para o Microsoft Foundry — operações do plano de controle de computação gerenciada, juntamente com as funções internas que concedem cada uma dessas operações.

Visão geral

  • Colaborador dos Serviços Cognitivos (ou Proprietário do Foundry / Proprietário da Conta do Foundry) concede permissões completas de criação/leitura/atualização/exclusão em implantações de computação gerenciada.
  • Usuário dos Serviços Cognitivos e Usuário do Foundry concedem acesso somente leitura às implantações.
  • Foundry Project Manager concede acesso de leitura às implantações e aos dados de uso do acelerador, mas não permite criar nem excluir.

A inferência (plano de dados) no endpoint unificado do Foundry segue o padrão padrão do Foundry ao atribuir Foundry User no escopo da conta do Foundry para chamar as implantações com o Microsoft Entra ID.

Limitações

A computação gerenciada está em versão prévia pública. Observe o seguinte antes de implantar cargas de trabalho de produção:

  • Filtragem de conteúdo: Os filtros internos do Segurança de Conteúdo de IA do Azure não fazem parte do caminho de dados da computação gerenciada na versão prévia pública. Se você precisar de filtragem no nível de solicitação ou de nível de resposta, chame as APIs Segurança de Conteúdo de IA do Azure diretamente do aplicativo.
  • Disponibilidade da região: a computação gerenciada é iniciada com escopo global. As implantações da Zona de Dados e as regiões adicionais estão sendo disponibilizadas gradualmente — consulte a matriz de disponibilidade geral para consultar a cobertura atual.
  • Preços: as taxas por hora por família de aceleradores e por região, a capacidade reservada e os descontos por compromisso estão em evolução para a implantação gerenciada de computação em versão prévia. Para obter as taxas atuais, consulte a calculadora de preços do Azure.