Pontos de extremidade para modelos Microsoft Foundry (clássico)

Exibição no momento:Versão do portal Foundry (clássico) - Alternar para a versão do novo portal Foundry

Os Modelos da Fábrica da Microsoft permitem que você acesse os modelos mais poderosos de provedores de modelos líderes por meio de um único ponto de extremidade e um conjunto de credenciais. Essa funcionalidade permite alternar entre modelos e usá-los em seu aplicativo sem alterar nenhum código.

Este artigo explica como os serviços Foundry organizam modelos e como usar o endpoint de inferência para acessá-los.

Importante

Azure SDK beta de inferência de IA foi preterido e será desativado em 26 de agosto de 2026. Mudar para a API OpenAI/v1 geralmente disponível com um SDK estável da OpenAI. Siga o guia de migração para alternar para OpenAI/v1 usando o SDK para sua linguagem de programação preferida.

Implantações

O Foundry usa implantações para disponibilizar modelos. As implantações dão um nome a um modelo e definem configurações específicas. Você pode acessar um modelo usando seu nome de implantação em suas solicitações.

Uma implantação inclui:

  • Um nome do modelo
  • Uma versão do modelo
  • Um tipo de provisionamento ou capacidade1
  • Uma configuração de filtragem de conteúdo1
  • Uma configuração de limitação de taxa1

1 Essas configurações podem ser alteradas dependendo do modelo selecionado.

Um recurso Foundry pode ter muitas implantações de modelo. Você paga apenas pela inferência executada em implantações de modelo. As implantações são recursos do Azure, portanto, estão sujeitas às políticas do Azure.

Para obter mais informações sobre como criar implantações, consulte Adicionar e configurar implantações de modelo.

Pontos de extremidade

Os serviços do Foundry fornecem vários pontos de extremidade dependendo do tipo de trabalho que você deseja realizar:

Ponto de extremidade de inferência de IA do Azure

Nota

Os exemplos do SDK de Inferência de IA Azure nesta seção permanecem totalmente funcionais. No entanto, para novos projetos, recomendamos usar o Azure OpenAI endpoint com o SDK do OpenAI. Para obter diretrizes de migração, consulte Migre do SDK de Inferência de IA do Azure para o SDK do OpenAI.

O endpoint de inferência do Azure AI, geralmente no formato https://<resource-name>.services.ai.azure.com/models, permite que você use um único endpoint com a mesma autenticação e esquema para gerar inferência para os modelos implantados no recurso. Todos os Modelos de Fundição suportam essa capacidade. Esse ponto de extremidade segue a Azure API de Inferência de Modelo de IA, que dá suporte às seguintes modalidades:

  • Inserções de texto
  • Incorporações de imagem
  • Finalizações de chat

Roteamento

O ponto de extremidade de inferência roteia solicitações para uma implantação específica, correspondendo ao parâmetro name na solicitação com o nome da implantação. Essa configuração significa que as implantações funcionam como um alias para um modelo em determinadas configurações. Essa flexibilidade permite implantar um modelo várias vezes no serviço, mas com configurações diferentes, se necessário.

Uma ilustração mostrando como o roteamento funciona para um modelo indicando o nome do modelo no parâmetro 'model' da solicitação de conteúdo.

Por exemplo, se você criar uma implantação nomeada Mistral-large, poderá invocar essa implantação da seguinte maneira:

Instale o pacote azure-ai-inference usando o gerenciador de pacotes, como pip:

pip install azure-ai-inference

Então, você pode usar o pacote para consumir o modelo. O exemplo a seguir mostra como criar um cliente para consumir conclusões de chat:

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

client = ChatCompletionsClient(
    endpoint="https://<resource>.services.ai.azure.com/models",
    credential=AzureKeyCredential(os.environ["AZURE_INFERENCE_CREDENTIAL"]),
)

Explore nossas samples e leia a documentação de referência API para começar.

Para um modelo de chat, você pode criar uma solicitação da seguinte maneira:

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

Se você especificar um nome de modelo que não corresponda a nenhuma implantação de modelo, receberá um erro de que o modelo não existe. Você controla quais modelos estão disponíveis para os usuários criando implantações de modelo. Para obter mais informações, consulte adicionar e configurar implantações de modelo.

Ponto de extremidade de inferência do OpenAI do Azure

A API Azure OpenAI expõe todos os recursos de modelos OpenAI e dá suporte a mais recursos como assistentes, threads, arquivos e inferência em lote. Você também pode acessar modelos não OpenAI por essa rota.

Os pontos de extremidade OpenAI do Azure, geralmente do formulário https://<resource-name>.openai.azure.com, funcionam no nível de implantação e cada implantação tem sua própria URL associada. No entanto, você pode usar o mesmo mecanismo de autenticação para acessar as implementações. Para obter mais informações, consulte a página de referência para Azure API OpenAI.

Uma ilustração que mostra como as implantações do Azure OpenAI contêm uma única URL para cada implantação.

Cada implantação tem uma URL formada pela concatenação da URL base Azure OpenAI e a rota /deployments/<model-deployment-name>.

Instale o pacote openai usando o gerenciador de pacotes, como pip:

pip install openai --upgrade

Então, você pode usar o pacote para consumir o modelo. O exemplo a seguir mostra como criar um cliente para consumir conclusões de chat:

import os
from openai import AzureOpenAI
    
client = AzureOpenAI(
    azure_endpoint = "https://<resource>.services.ai.azure.com"
    api_key=os.getenv("AZURE_INFERENCE_CREDENTIAL"),  
    api_version="2024-10-21",
)
response = client.chat.completions.create(
    model="deepseek-v3-0324", # Replace with your model deployment name.
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain Riemann's conjecture in 1 paragraph"}
    ]
)

print(response.model_dump_json(indent=2)

Para obter mais informações sobre como usar o ponto de extremidade do OpenAI do Azure, consulte a documentação OpenAI do Azure em Modelos do Foundry.

Autenticação sem chave

Os modelos implantados nos Modelos da Fábrica no Foundry Tools dão suporte à autorização sem chave usando o Microsoft Entra ID. A autorização sem chave aprimora a segurança, simplifica a experiência do usuário, reduz a complexidade operacional e fornece suporte robusto de conformidade para o desenvolvimento moderno. Isso torna a autorização sem chave uma opção forte para as organizações que adotam soluções de gerenciamento de identidade seguras e escalonáveis.

Para usar a autenticação sem chave, configure seu recurso e conceda acesso aos usuários para executar a inferência. Depois de configurar o recurso e conceder acesso, autentique da seguinte maneira:

Instale o SDK do OpenAI usando um gerenciador de pacotes como pip:

pip install openai

Para Microsoft Entra ID autenticação, instale também:

pip install azure-identity

Use o pacote para consumir o modelo. O exemplo a seguir mostra como criar um cliente para consumir preenchimentos de chat com o Microsoft Entra ID e fazer uma chamada de teste para o ponto de extremidade de preenchimentos de chat com a implantação do seu modelo.

Substitua <resource> pelo nome do recurso Foundry. Localize-o no portal do Azure ou executando az cognitiveservices account list. Substitua DeepSeek-V3.1 pelo nome da implantação real.

from openai import OpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(), 
    "https://ai.azure.com/.default"
)

client = OpenAI(
    base_url="https://<resource>.openai.azure.com/openai/v1/",
    api_key=token_provider,
)

completion = client.chat.completions.create(
    model="DeepSeek-V3.1",  # Required: your deployment name
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "What is Azure AI?"}
    ]
)

print(completion.choices[0].message.content)

Saída esperada

Azure AI is a comprehensive suite of artificial intelligence services and tools from Microsoft that enables developers to build intelligent applications. It includes services for natural language processing, computer vision, speech recognition, and machine learning capabilities.

Referência: OpenAI Python SDK e classeDefaultAzureCredential.

Limitações

  • Você não pode usar o Azure OpenAI Batch com o endpoint dos Foundry Models. Você precisa usar a URL de implantação dedicada, conforme explicado no suporte à API Batch na documentação do Azure OpenAI.
  • Não há suporte para a API em tempo real no endpoint de inferência. Use uma URL de implantação dedicada.