Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Os modelos instantâneos permitem que você chame qualquer modelo com suporte por nome , sem necessidade de implantação. Crie um projeto do Foundry, inicie a codificação e use qualquer modelo disponível imediatamente.
Pré-requisitos
- Uma assinatura do Azure. Criar um gratuitamente.
- Entre no Microsoft Foundry. Verifique se o botão New Foundry está ativado. Essas etapas se referem ao Foundry (novo).
- Um projeto do Foundry na região West US 3 (a única região com suporte para modelos instantâneos durante a versão preliminar). Se você precisar criar um projeto, consulte Criar um projeto.
- A função de usuário do Foundry no projeto ou na conta.
Importante
As funções RBAC do Foundry foram renomeadas recentemente. Foundry User, Foundry Owner, Foundry Account Owner e Foundry Project Manager eram anteriormente chamados de Usuário do Azure AI, Proprietário do Azure AI, Proprietário da conta do Azure AI e Gerente de Projeto do Azure AI. Você ainda pode ver os nomes anteriores em alguns lugares enquanto essa mudança de nome está sendo implementada. Os IDs das funções e as permissões principais não são alterados com a mudança de nome.
Comece a usar modelos instantaneamente
Com modelos instantâneos, o fluxo de trabalho é simples: use um nome de modelo instantâneo com suporte em seu código. Nenhuma implantação é necessária. A mesma API, SDK e cliente que você já usa para implantações funciona com modelos instantâneos. Nenhum segundo SDK, nenhum cliente separado, nenhuma alteração de configuração.
A única alteração em relação ao código baseado em implantação é o parâmetro model. No código abaixo, substitua "gpt-5-mini" pelo nome qualquer modelo instantâneo.
from azure.identity import DefaultAzureCredential
from azure.ai.projects import AIProjectClient
# Format: "https://resource_name.ai.azure.com/api/projects/project_name"
PROJECT_ENDPOINT = "your_project_endpoint"
# Create project and openai clients to call Foundry API
project = AIProjectClient(
endpoint=PROJECT_ENDPOINT,
credential=DefaultAzureCredential(),
)
openai = project.get_openai_client()
# Run a responses API call
response = openai.responses.create(
model="gpt-5-mini",
input="What is the size of France in square miles?",
)
print(f"Response output: {response.output_text}")
Por que os modelos instantâneos importam
-
Alterne modelos alterando uma cadeia de caracteres – use qualquer nome de modelo instantâneo na
model=linha, sem criar ou excluir implantações. - A mesma API e SDK – as mesmas chamadas funcionam para modelos instantâneos e implantações.
- Funciona com suas ferramentas de desenvolvimento – os modelos instantâneos se integram aos pipelines da CLI do Foundry, do VS Code e do CI/CD da mesma maneira que as implantações.
As implantações não vão desaparecer. Eles permanecem a escolha certa quando você precisa de taxa de transferência reservada, filtros de conteúdo personalizado, residência de dados ou configurações corporativas avançadas. Os modelos Instant simplificam a experiência inicial, para que as implementações se tornem algo para o qual você evolui, e não uma barreira que precisa superar antes de usar um modelo.
Modelos com suporte
Os novos modelos dão suporte ao acesso instantâneo por padrão quando são lançados. O suporte para modelos adicionais é considerado com base na demanda do cliente.
Para ver todos os modelos que dão suporte ao acesso instantâneo:
- Abra um projeto no Oeste dos EUA 3 na nova experiência do Foundry,
- Selecione Descobrir na navegação superior direita e, em seguida, Modelos no painel esquerdo.
- No catálogo de modelos, selecione Instant em Opções de desenvolvimento para ver os modelos instantâneos disponíveis.
Você também pode listar modelos instantâneos programaticamente:
SUBSCRIPTION_ID="<your-subscription-id>"
LOCATION="westus3"
az rest --method get \
--url "https://management.azure.com/subscriptions/$SUBSCRIPTION_ID/providers/Microsoft.CognitiveServices/locations/$LOCATION/models?api-version=2025-06-01" \
--output json \
| jq -r '(.value // .models // .)[]
| select((.model.capabilities.instant // "false" | tostring | ascii_downcase) == "true")
| .model.name' \
| sort -u
Note
Durante a versão prévia, os modelos instantâneos estão disponíveis apenas em projetos no Oeste dos EUA 3 .
Alguns modelos instantâneos podem aparecer na lista mesmo que sua assinatura não tenha cota para eles. Para obter mais informações, consulte Cotas e limites para modelos do Foundry.
Quando usar modelos instantâneos versus implantações
| Scenario | Abordagem recomendada |
|---|---|
| Introdução, protótipo ou experimentação | Modelos instantâneos |
| Usar o modelo mais recente imediatamente após o lançamento | Modelos instantâneos |
| Precisa de capacidade reservada ou taxa de transferência previsível | Implantação |
| Exigir PTU (taxa de transferência provisionada) | Implantação |
| Precisa de residência de dados em uma região específica | Implantação |
| Políticas de filtragem de conteúdo personalizado por modelo | Implantação |
| Guardrails personalizados por modelo | Implantação |
| Configuração específica do ponto de extremidade (por exemplo, bloqueios de versão por ponto de extremidade) | Implantação |
| Particionamento granular de quota entre equipes | Implantação |
| Modelos ajustados | Implantação |
Modelos e implantações instantâneas podem coexistir no mesmo projeto. Você pode começar com modelos instantâneos e criar implantações mais tarde à medida que seus requisitos evoluem.
Versões de modelo
Por padrão, os modelos instantâneos roteiam para a versão mais recente de um modelo. Para fixar em uma versão específica, acrescente a data de versão ao nome do modelo como um sufixo hifenizado:
O que você passa como model |
Behavior |
|---|---|
model-name |
Rotas para a versão mais recente |
model-name-2025-04-01 |
Rotas para aquela versão específica |
A fixação de versão é opcional. Se o aplicativo exigir estabilidade, inclua o sufixo de versão. Caso contrário, você sempre obterá a versão mais recente automaticamente.
Como a cota é consumida
Modelos instantâneos usam um pool de cota global por modelo atribuído à sua assinatura. Essa cota é separada da cota regional usada pelas implantações padrão.
- Você não aloca nem particiona a cota global — ela é compartilhada automaticamente entre todos os usos de modelos instantâneos na sua assinatura.
- As implantações do Global Standard reservam uma parcela da sua cota global. Os modelos instantâneos usam qualquer capacidade restante.
- Outros tipos de implantação (Padrão Regional, Provisionado) usam cota regional separada e não afetam a capacidade do modelo instantâneo.
- Se as solicitações de modelo instantâneo forem limitadas, você poderá solicitar um aumento de cota ou criar uma implantação com capacidade reservada.
Para obter mais detalhes sobre como as cotas globais e regionais interagem, consulte Gerenciar e aumentar as cotas.
Controles corporativos
| Capacidade | Como funciona |
|---|---|
| Bloquear modelos ou provedores específicos | As definições do Azure Policy se aplicam a modelos instantâneos da mesma forma que se aplicam às implantações |
| Fixar em uma versão de modelo | Acrescente o sufixo de versão ao nome do modelo (consulte versões do modelo) |
| Desabilitar totalmente os modelos instantâneos | Os administradores podem desativar modelos instantâneos no nível da assinatura por meio de Azure Policy |
Para remover modelos instant de uma conta, configure as definições por meio do Bicep ou do ARM REST.
Atualize sua conta com:
PATCH https://management.azure.com/subscriptions/{sub}/resourceGroups/{rg}/providers/Microsoft.CognitiveServices/accounts/{account}?api-version=2026-01-15-preview
Authorization: Bearer {arm_token}
Content-Type: application/json
Use este corpo da requisição para desativar efetivamente o acesso instantâneo ao modelo:
{
"properties": {
"instant": {
"raiPolicyName": "Microsoft.DefaultV2",
"modelAllowList": []
}
}
}
Importante
Todos os modelos instantâneos usam filtros de conteúdo e guardrails padrão. No entanto, você não pode configurar os guardrails personalizados ou as políticas de IA Responsável (RAI) por modelo para modelos instantâneos. Você pode definir uma política RAI padrão no nível da conta por meio da API, mas essa política se aplica uniformemente a todos os modelos instantâneos. Se você precisar de políticas de filtragem de conteúdo diferentes para cada modelo, use uma implantação.
Colisões de nomes de implantação
Novas implantações não podem usar um nome que corresponda a um nome de modelo existente. Se você tiver uma implantação existente cujo nome colide com um nome de modelo, a implantação terá precedência e o acesso de modelo instantâneo para esse nome de modelo não estará disponível nesse projeto.
Limitações durante a visualização
- Disponível somente no Oeste dos EUA 3 .
- Não há suporte para modelos ajustados. Para usar um modelo refinado, crie uma implantação.
- Guardrails, políticas RAI personalizadas e filtros de conteúdo não são configuráveis para modelos instantâneos.
- Somente os modelos listados em modelos com suporte são qualificados.