Implantar modelos de software livre com computação gerenciada (versão prévia)

Note

A computação gerenciada na Foundry está atualmente em versão prévia pública e o registro é necessário para usá-la. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares para Versões Prévias do Microsoft Azure.

A implantação de computação gerenciada (versão prévia) no Microsoft Foundry hospeda modelos de código aberto em capacidade dedicada de GPU. Microsoft possui a topologia de GPU, o runtime, a imagem do contêiner e a aplicação de patch de segurança. Você escolhe o modelo, o modelo de implantação, a família de aceleradores e o comportamento de dimensionamento que se ajustam à carga de trabalho. Este artigo percorre o fluxo de trabalho de ponta a ponta para implantar um modelo de software livre na computação gerenciada no Microsoft Foundry.

Neste artigo, você aprenderá como:

Escolher um modelo no catálogo de modelos
Selecionar um modelo de implantação
Implantar o modelo usando o portal do Foundry ou o SDK do Python
Executar inferência usando o SDK do OpenAI
Dimensionar e monitorar a implantação
Solicitar mais cota

Para obter uma visão geral da implantação de computação gerenciada no Foundry, incluindo instâncias de modelo, modelos de implantação, runtimes, famílias aceleradoras, cobrança e limitações atuais, consulte Computação gerenciada no Microsoft Foundry (Versão prévia).

Prerequisites

Uma assinatura de Azure ativa. Para criar uma, consulte Criar sua conta gratuita Azure.
Um grupo de recursos na assinatura em que você tem permissão para criar recursos.
Uma conta do Microsoft Foundry (conta do Cognitive Services do tipo AIServices) e um projeto do Foundry. Para criar um, consulte Criar um projeto do Foundry.
As seguintes atribuições de função do Azure no escopo da conta do Foundry:
- Colaborador dos Serviços Cognitivos (ou Proprietário do Foundry / Proprietário da Conta do Foundry) — necessário para criar, atualizar e excluir implantações de computação gerenciada. Consulte Controle de acesso baseado em função para Microsoft Foundry — operações do plano de controle da computação gerenciada.
- Foundry User — necessário para chamar a implantação usando o Microsoft Entra ID pelo Playground, pelo SDK ou pela API REST.
Cota de computação gerenciada aprovada para a família de aceleradores na qual você planeja implantar (A100, H100 ou MI300X) na região de destino. A cota de computação gerenciada é diferente da cota de VM do Azure. Consulte Solicitar mais cota no final deste artigo.

Ferramentas locais para os exemplos do SDK e da CLI:

pip install "azure-mgmt-cognitiveservices==15.0.0b2" azure-identity openai requests
az login

CLI do Azure 2,60 ou posterior.

Importante

A computação gerenciada na Foundry está em versão prévia pública. APIs, nomes de SKU e regiões com suporte podem mudar antes da disponibilidade geral. A filtragem de conteúdo integrada não faz parte do caminho de dados da computação gerenciada na versão prévia pública. Se você precisar de filtragem no nível de solicitação ou de nível de resposta, chame as APIs Segurança de Conteúdo de IA do Azure diretamente do aplicativo.

Escolher um modelo no catálogo

A computação gerenciada implanta modelos da coleção Hugging Face no catálogo de modelos do Foundry, servidos a partir do azure-huggingface registro.

Entre no Microsoft Foundry. Verifique se o botão New Foundry está ativado. Essas etapas se referem ao Foundry (novo).
Selecione sua assinatura e o recurso Foundry.
Selecione Criar na navegação superior direita e selecione Modelos no painel esquerdo.
Filtre o catálogo por Coleções. Escolha Hugging Face. Você também pode usar qualquer um dos outros filtros para restringir o modelo que deseja implantar (por exemplo, escolher uma família de modelos como qwen) ou por modalidade ou tarefa. Você também pode pesquisar pelo nome do modelo.
Selecione um cartão de modelo (por exemplo) nvidia-nemotron-3-nano-30b-a3b-fp8para abrir seus detalhes.

O cartão de modelo mostra a licença upstream, a modalidade, as tarefas com suporte e os modelos de implantação publicados para o modelo. Se você planeja implantar por meio do SDK Python ou REST em vez de usar o assistente do portal, precisará de três valores como entrada para a chamada de implantação. Você pode encontrar esses valores no portal do Foundry da seguinte maneira:

ID do modelo: o ID totalmente qualificado do recurso no registro do modelo. Disponível no cartão de modelo no catálogo (copie do painel de detalhes do modelo). Exemplo:
```
azureml://registries/azure-huggingface/models/nvidia--nvidia-nemotron-3-nano-30b-a3b-fp8/versions/2
```
ID do template de implantação: identifica o runtime, a família e a quantidade de aceleradores e o tamanho do contexto do modelo. Disponível no assistente de implantação que é aberto quando você seleciona Implantar no cartão de modelo. Selecione um modelo e copie o ID do template de implantação no assistente. Exemplo:
```
azureml://registries/azure-huggingface/deploymenttemplates/nvidia--nvidia-nemotron-3-nano-30b-a3b-fp8--nvidia-h100/labels/latest
```
Note

Uma ID de modelo e uma ID de modelo de implantação devem ser compatíveis; cada modelo lista as versões de modelo compatíveis. O assistente do portal mostra apenas modelos compatíveis para o modelo selecionado. Se você implantar usando código, verifique se ambas as referências apontam para artefatos válidos no registro azure-huggingface.

Para saber mais sobre modelos de implantação, consulte o modelo de implantação no artigo visão geral da computação gerenciada.
Tipo de acelerador: por exemplo H100_80GB, A100_80GBou MI_300_192GB. Exibido ao lado de cada modelo no assistente de implantação.

Implantar o modelo

Selecione Implantar no cartão de modelo para abrir o assistente de implantação.
Especifique um nome de implantação. O nome da implantação é o que seu aplicativo passa no campo model durante a inferência — escolha um nome estável e adequado para o aplicativo (por exemplo, nemotron-3-nano-30b).
O tipo de implantação (Computação Gerenciada Global) é pré-selecionado no assistente de implantação.
Selecione o modelo de implantação que corresponde à carga de trabalho. Por exemplo, o modelo predefinido H100 com um único acelerador para obter o menor custo com um comprimento de contexto moderado, ou um modelo predefinido com dois aceleradores se seus prompts excederem o limite de contexto de um único acelerador.
Selecione o tipo acelerador, por exemplo, H100_80GB.
Defina instâncias de modelo como 1 (ou superior, se você mediu sua carga de trabalho). As instâncias de modelo determinam o tamanho da computação gerenciada e correspondem ao valor capacity da SKU de implantação. Cada instância consome a contagem de aceleradores definida pelo modelo; por exemplo, um modelo que especifica um H100 por instância com capacidade 2 usa dois aceleradores H100 no total.

Tip

Comece com capacity: 1, para a primeira implantação, e, em seguida, expanda horizontalmente aumentando a capacidade após medir sua carga de trabalho. Consulte Gerenciar e dimensionar a implantação para saber como aumentar a capacidade.
Marque a caixa de seleção para reconhecer o custo da implantação.
Selecione Implantar. O provisionamento normalmente leva de 10 a 15 minutos.

Verificar a implantação

A página de detalhes da implantação é atualizada de Creating para Succeeded quando o modelo estiver ativo por trás do ponto de extremidade do Foundry. Você pode ver detalhes sobre a implantação, incluindo o estado de provisionamento, o tipo de implantação e outras seleções feitas durante a criação da implantação.

Enviar uma solicitação de teste

Quando a implantação estiver pronta, teste-a interativamente no Foundry Playground.

Selecione a guia Playground para alternar para ela na página Detalhes da implantação.
Envie um prompt para testar a implantação.

Monitorar a implantação

As implantações de computação gerenciada geram métricas na mesma interface do Azure Monitor que as outras implantações do Foundry. Na página de detalhes da implantação no portal do Foundry, a guia Monitor mostra:

Contagem de solicitações agrupada pelo código de status HTTP.
Percentis de tempo de resposta (p50, p90, p99).
Para modelos de conclusões de chat: contagem de tokens de entrada e saída, percentis de tempo até o primeiro token (TTFT) e percentis de tempo de decodificação entre tokens.

Para análise ou alertas mais profundos, abra a implantação no portal Azure e use Metrics em Monitoring para mapear as mesmas métricas, agrupar por implantação e configurar alertas. As etiquetas de cobrança por implantação são geradas automaticamente. Filtre o Gerenciamento de Custos pela marca de implantação para atribuir gastos a uma implantação de computação gerenciada específica. Para obter detalhes, consulte Plane e gerencie os custos para Microsoft Foundry.

Excluir a implantação

A exclusão de uma implantação libera sua alocação de acelerador e interrompe a cobrança imediatamente. Para excluir uma implantação:

Vá para a lista de implantações no portal do Foundry.
Selecione o botão de rádio ao lado do nome da implantação.
No painel direito, selecione Excluir.

Solicitar mais cota

A cota de computação gerenciada é concedida por família de aceleradores, por região, por meio do processo de cotas do Foundry e é separada da cota de VM do Azure. A cota de VM Azure existente não pode ser aplicada a uma implantação de computação gerenciada.

Para solicitar mais cota:

Selecione Operações na navegação no canto superior direito e, em seguida, Cota no painel esquerdo.
Selecione a guia Computação gerenciada . A tabela lista as alocações atuais agrupadas pela família e região do acelerador.
Selecione a cota de solicitação no canto superior direito.
No formulário de solicitação, escolha a família de aceleradores (A100, H100 ou MI300X), a região de destino e a cota solicitada. Envie a solicitação.

Permita até 15 minutos para que uma alteração de cota aprovada seja propagada. Atualize a página Cota para verificar a alocação atualizada. Para obter mais informações sobre conceitos de cota, consulte Gerenciar e aumentar as cotas para recursos.

Use o script de Python a seguir para implantar o modelo. Substitua os marcadores de posição pelo seu próprio ID de assinatura, grupo de recursos, nome da conta do Foundry e nome da implantação.

Tip

Comece com capacity: 1 na primeira implantação e, em seguida, expanda horizontalmente aumentando a capacidade após medir sua carga de trabalho. Consulte Gerenciar e dimensionar a implantação para saber como aumentar a capacidade.

from azure.identity import DefaultAzureCredential
from azure.mgmt.cognitiveservices import CognitiveServicesManagementClient

SUBSCRIPTION_ID  = "<your-subscription-id>"
RESOURCE_GROUP   = "<your-resource-group>"
ACCOUNT_NAME     = "<your-foundry-account>"
DEPLOYMENT_NAME  = "nemotron-3-nano-30b"

MODEL = "azureml://registries/azure-huggingface/models/nvidia--nvidia-nemotron-3-nano-30b-a3b-fp8/versions/2"
TEMPLATE = "azureml://registries/azure-huggingface/deploymenttemplates/nvidia--nvidia-nemotron-3-nano-30b-a3b-fp8--nvidia-h100/labels/latest"

client = CognitiveServicesManagementClient(
    DefaultAzureCredential(), SUBSCRIPTION_ID
)

deployment = client.managed_compute_deployments.begin_create_or_update(
    resource_group_name=RESOURCE_GROUP,
    account_name=ACCOUNT_NAME,
    deployment_name=DEPLOYMENT_NAME,
    resource={
        "sku": {"name": "GlobalManagedCompute", "capacity": 1},
        "properties": {
            "model": MODEL,
            "deploymentTemplate": TEMPLATE,
            "acceleratorType": "H100_80GB",
            "versionUpgradeOption": "OnceNewDefaultVersionAvailable",
        },
    },
).result()  # blocks until terminal state (~10–15 min)

print(f"State: {deployment.properties.provisioning_state}")
print(f"ID:    {deployment.id}")

Verificar a implantação

Depois que a implantação for criada, confirme se ela está íntegra antes de enviar o tráfego.

d = client.managed_compute_deployments.get(
    resource_group_name=RESOURCE_GROUP,
    account_name=ACCOUNT_NAME,
    deployment_name=DEPLOYMENT_NAME,
)

print(f"State:        {d.properties.provisioning_state}")    # expect: Succeeded
print(f"Model:        {d.properties.model}")
print(f"Template:     {d.properties.deployment_template}")
print(f"Accelerator:  {d.properties.accelerator_type}")
print(f"Capacity:     {d.sku.capacity}")

Pesquisar por:

provisioningState: Succeeded significa que a implantação está ativa.
acceleratorType corresponde ao valor solicitado.
sku.capacity corresponde ao número de instâncias solicitadas.

Se provisioningState estiver Failed, consulte Solução de problemas.

Enviar uma solicitação de teste

As implantações de computação gerenciada podem ser acessadas por meio do endpoint unificado do Foundry em:

https://<account>.services.ai.azure.com/openai/v1/

O model campo no corpo da solicitação usa o nome de implantação especificado, não a ID do modelo.

OpenAI SDK (Microsoft Entra ID)
SDK do OpenAI (chave de API)

from azure.identity import DefaultAzureCredential, get_bearer_token_provider
from openai import OpenAI

ACCOUNT_NAME    = "<your-foundry-account>"
DEPLOYMENT_NAME = "nemotron-3-nano-30b"

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(),
    "https://cognitiveservices.azure.com/.default",
)

client = OpenAI(
    base_url=f"https://{ACCOUNT_NAME}.services.ai.azure.com/openai/v1",
    api_key="placeholder",  # required by OpenAI SDK; overridden by Authorization header
    default_headers={"Authorization": f"Bearer {token_provider()}"},
)

resp = client.chat.completions.create(
    model=DEPLOYMENT_NAME,
    messages=[{"role": "user", "content": "What is the capital of France?"}],
)

print(resp.choices[0].message.content)

Invocar a implantação usando o Microsoft Entra ID requer a função Azure AI User na conta do Foundry.

from azure.identity import DefaultAzureCredential
from azure.mgmt.cognitiveservices import CognitiveServicesManagementClient
from openai import OpenAI

SUBSCRIPTION_ID = "<your-subscription-id>"
RESOURCE_GROUP  = "<your-resource-group>"
ACCOUNT_NAME    = "<your-foundry-account>"
DEPLOYMENT_NAME = "nemotron-3-nano-30b"

mgmt = CognitiveServicesManagementClient(
    DefaultAzureCredential(), SUBSCRIPTION_ID
)
api_key = mgmt.accounts.list_keys(RESOURCE_GROUP, ACCOUNT_NAME).key1

client = OpenAI(
    base_url=f"https://{ACCOUNT_NAME}.services.ai.azure.com/openai/v1",
    api_key=api_key,
)

resp = client.chat.completions.create(
    model=DEPLOYMENT_NAME,
    messages=[{"role": "user", "content": "What is the capital of France?"}],
)

print(resp.choices[0].message.content)

Gerenciar e dimensionar a implantação

Como as implantações de computação gerenciada são centradas no modelo, você dimensiona as implantações alterando o número de instâncias de modelo, não dimensionando um nó.

Alterar capacidade

d = client.managed_compute_deployments.get(
    RESOURCE_GROUP, ACCOUNT_NAME, DEPLOYMENT_NAME
)
d.sku.capacity = 3

client.managed_compute_deployments.begin_create_or_update(
    resource_group_name=RESOURCE_GROUP,
    account_name=ACCOUNT_NAME,
    deployment_name=DEPLOYMENT_NAME,
    resource=d,
).result()

Obter atualizações de runtime e de modelo

Definir versionUpgradeOption como OnceNewDefaultVersionAvailable na implantação faz com que ela passe a adotar novas versões padrão de modelo e de ambiente de execução quando a Microsoft as publica. Patches de runtime e correções de CVE são aplicados automaticamente às implantações de clientes em produção; não é necessário reimplantar o modelo para recebê-los.

Monitorar a implantação

As implantações de computação gerenciada emitem métricas na mesma interface do Azure Monitor que as outras implantações do Foundry. Para análise ou alertas mais profundos, abra a implantação no portal Azure e use Metrics em Monitoring para gráficos de métricas como:

Contagem de solicitações agrupada pelo código de status HTTP.
Percentis de tempo de resposta (p50, p90, p99).
Para modelos de conclusão de chat: contagens de tokens de entrada e de saída, percentis de tempo até o primeiro token (TTFT) e percentis de tempo de decodificação entre tokens.

Você também pode agrupar por implantação e configurar alertas. As etiquetas de cobrança por implantação são geradas automaticamente. Filtre o Gerenciamento de Custos pela marca de implantação para atribuir gastos a uma implantação de computação gerenciada específica. Para obter detalhes, consulte Plane e gerencie os custos para Microsoft Foundry.

Excluir a implantação

A exclusão de uma implantação libera sua alocação de acelerador e interrompe a cobrança imediatamente. Para excluir uma implantação:

client.managed_compute_deployments.begin_delete(
    resource_group_name=RESOURCE_GROUP,
    account_name=ACCOUNT_NAME,
    deployment_name=DEPLOYMENT_NAME,
).result()

Resumo do controle de acesso

Action	Função mínima
Criar, atualizar ou excluir uma implantação de computação gerenciada	Colaborador dos Serviços Cognitivos (ou Proprietário da Fundiária/Proprietário da Conta de Fundiária) na conta da Foundry
Ler uma implantação ou listar implantações	Usuário dos Serviços Cognitivos, Usuário do Foundry, Gerente de Projeto do Foundry ou qualquer uma das funções acima
Invocar a implantação com o Microsoft Entra ID	Usuário do Foundry na conta Foundry
Invocar a implantação com uma chave de API	A chave da conta (nenhuma função do Azure é necessária para a chamada em si; a obtenção da chave requer acesso de leitura)

Para obter a lista completa de operações do provedor de recursos do Azure, a matriz de funções para permissões e a comparação com as implantações padrão, consulte Controle de acesso baseado em função para o Microsoft Foundry — operações do plano de controle de computação gerenciada.

Solução de problemas

`provisioningState: Failed`

Confirme se a família de aceleradores solicitada aprovou a cota na região de destino e se o modelo de implantação escolhido lista essa família de aceleradores. A incompatibilidade entre o modelo e o template de implantação, por exemplo, um template publicado para uma versão diferente do modelo, é uma causa comum. Verifique se ambas as referências apontam para ativos de registro válidos no registro azure-huggingface.

"Cota excedida" na criação

A conta foundry não tem cota de computação gerenciada suficiente na região para a família de aceleradores solicitada. Solicite mais cota. Azure cota de VM não se aplica à computação gerenciada.

"Capacidade insuficiente" na região

A região não retornou nenhuma capacidade para a família de aceleradores solicitada. Experimente uma família diferente (por exemplo, implante no MI300X em vez de H100), escolha um modelo com menos aceleradores por instância ou direcione uma região diferente. Famílias de memória maior, como o MI300X, geralmente têm capacidade para modelos que não se encaixam no A100.

404 da rota `/openai/v1/`

Se uma solicitação de conclusão de chat para https://<account>.services.ai.azure.com/openai/v1/chat/completions retornar 404, verifique se:

O nome da implantação no corpo da solicitação corresponde à implantação que você criou.
O provisioningState da implantação é Succeeded.
O runtime do modelo disponibiliza completações de chat. Alguns runtimes (por exemplo, TEI para inserções) não expõem a rota de conclusões de chat; em vez disso, use a rota documentada no cartão de modelo.

Implantação paralisada `Creating` por mais de 20 minutos

Alguns modelos maiores levam mais tempo do que os 10 a 15 minutos típicos para surgir. Se, após 20 minutos, provisioningState ainda estiver Creating, verifique a página de detalhes da implantação no portal do Foundry em busca de uma mensagem de status da operação e confirme se a região subjacente não apresentou degradação. Se a implantação permanecer em Creating por mais de 30 minutos sem qualquer mensagem de operação, exclua-a e tente novamente. O provisionamento é idempotente em relação ao nome da implantação.

Comentários

Esta página foi útil?

Last updated on 2026-06-03

Implantar modelos de software livre com computação gerenciada (versão prévia)

Prerequisites

Escolher um modelo no catálogo

Implantar o modelo

Verificar a implantação

Enviar uma solicitação de teste

Monitorar a implantação

Excluir a implantação

Solicitar mais cota

Verificar a implantação

Enviar uma solicitação de teste

Gerenciar e dimensionar a implantação

Alterar capacidade

Obter atualizações de runtime e de modelo

Monitorar a implantação

Excluir a implantação

Resumo do controle de acesso

Solução de problemas

provisioningState: Failed

"Cota excedida" na criação

"Capacidade insuficiente" na região

404 da rota /openai/v1/

Implantação paralisada Creating por mais de 20 minutos

Conteúdo relacionado

Comentários

Recursos adicionais

`provisioningState: Failed`

404 da rota `/openai/v1/`

Implantação paralisada `Creating` por mais de 20 minutos