Endpoints para Microsoft Foundry Models (clássico)

Atualmente a ver:versão do portal Foundry (clássica) - Trocar para a versão do novo portal Foundry

O Microsoft Foundry Models permite-lhe aceder aos modelos mais poderosos dos principais fornecedores de modelos através de um único endpoint e conjunto de credenciais. Esta funcionalidade permite-lhe alternar entre modelos e usá-los na sua aplicação sem alterar qualquer código.

Este artigo explica como os serviços Foundry organizam os modelos e como usar o endpoint de inferência para aceder a eles.

Importante

O Azure AI Inference beta SDK está obsoleto e será retirado a 26 de agosto de 2026. Mude para a API OpenAI/v1 geralmente disponível com um SDK OpenAI estável. Siga o guia de migração para mudar para OpenAI/v1, usando o SDK da sua linguagem de programação preferida.

Destacamentos

A Foundry utiliza implementações para disponibilizar modelos. As implementações dão um nome a um modelo e definem configurações específicas. Pode aceder a um modelo usando o nome de implementação nos seus pedidos.

Uma implantação inclui:

  • Um nome de modelo
  • Uma versão modelo
  • Um tipo de aprovisionamento ou capacidade1
  • Uma configuração de filtragemde conteúdos 1
  • Uma configuração de limitação de taxa1

1 Estas configurações podem mudar consoante o modelo selecionado.

Um recurso Foundry pode ter muitas implementações modelo. Só se paga pela inferência realizada em implementações de modelos. As implementações são recursos do Azure, por isso estão sujeitas às políticas do Azure.

Para mais informações sobre a criação de implementações, consulte Adicionar e configurar implementações de modelo.

Pontos finais

Os serviços de fundição fornecem vários pontos de acesso dependendo do tipo de trabalho que pretende realizar.

Azure AI endpoint de inferência

Nota

As amostras do Azure AI Inference SDK nesta secção mantêm-se totalmente funcionais. No entanto, para novos projetos, recomendamos usar o endpoint Azure OpenAI com o SDK OpenAI. Para orientações sobre migração, consulte Migrar do SDK de Inferência de IA Azure para o SDK OpenAI.

O endpoint de inferência de IA Azure , geralmente da forma https://<resource-name>.services.ai.azure.com/models, permite-lhe usar um único endpoint com a mesma autenticação e esquema para gerar inferência para os modelos implementados no recurso. Todos os modelos Foundry suportam esta capacidade. Este endpoint segue a API de Inferência de Modelos de IA Azure, que suporta as seguintes modalidades:

  • Incorporações de texto
  • Embeddings de imagem
  • Conclusões do chat

Roteamento

O endpoint de inferência encaminha os pedidos para uma implementação específica, associando o name parâmetro do pedido ao nome da implementação. Esta configuração significa que as implementações funcionam como um alias para um modelo em determinadas configurações. Esta flexibilidade permite-lhe implementar um modelo várias vezes no serviço, mas com configurações diferentes, se necessário.

Uma ilustração que demonstra como funciona o encaminhamento para um modelo, indicando o nome do modelo no parâmetro 'modelo' da requisição de payload.

Por exemplo, se criar uma implantação chamada Mistral-large, pode invocar essa implementação da seguinte forma:

Instala o pacote azure-ai-inference usando o teu gestor de pacotes, como o pip:

pip install azure-ai-inference

Depois, pode usar o pacote para consumir o modelo. O exemplo seguinte mostra como criar um cliente para consumir as conclusões do chat:

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

client = ChatCompletionsClient(
    endpoint="https://<resource>.services.ai.azure.com/models",
    credential=AzureKeyCredential(os.environ["AZURE_INFERENCE_CREDENTIAL"]),
)

Explore os nossos exemplos e leia a documentação de referência API para começar.

Para um modelo de chat, pode criar um pedido da seguinte forma:

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

Se especificar um nome de modelo que não corresponde a nenhuma implementação de modelo, recebe um erro de que o modelo não existe. Controla quais os modelos disponíveis para os utilizadores criando implementações de modelos. Para mais informações, consulte adicionar e configurar implementações de modelos.

Azure OpenAI ponto de inferência

A API Azure OpenAI expõe todas as capacidades dos modelos OpenAI e suporta mais funcionalidades como assistentes, threads, ficheiros e inferência em lote. Também podes aceder a modelos não-OpenAI por esta via.

Azure OpenAI endpoints, geralmente da forma https://<resource-name>.openai.azure.com, funcionam ao nível da implementação e cada implementação tem a sua própria URL associada. No entanto, pode usar o mesmo mecanismo de autenticação para utilizar as implementações. Para mais informações, consulte a página de referência para Azure OpenAI API.

Uma ilustração que mostra como Azure implementações OpenAI contêm um único URL para cada implementação.

Cada implementação tem um URL formado pela concatenação do URL base Azure OpenAI e da rota /deployments/<model-deployment-name>.

Instala o pacote openai usando o teu gestor de pacotes, como o pip:

pip install openai --upgrade

Depois, pode usar o pacote para consumir o modelo. O exemplo seguinte mostra como criar um cliente para consumir as conclusões do chat:

import os
from openai import AzureOpenAI
    
client = AzureOpenAI(
    azure_endpoint = "https://<resource>.services.ai.azure.com"
    api_key=os.getenv("AZURE_INFERENCE_CREDENTIAL"),  
    api_version="2024-10-21",
)
response = client.chat.completions.create(
    model="deepseek-v3-0324", # Replace with your model deployment name.
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain Riemann's conjecture in 1 paragraph"}
    ]
)

print(response.model_dump_json(indent=2)

Para mais informações sobre como usar o endpoint Azure OpenAI, consulte Azure OpenAI na documentação de Foundry Models.

Autenticação sem chave

Os modelos implementados no Foundry Models no Foundry Tools suportam autorização sem chave através do Microsoft Entra ID. A autorização sem chave melhora a segurança, simplifica a experiência do utilizador, reduz a complexidade operacional e oferece suporte robusto de conformidade para o desenvolvimento moderno. Torna a autorização sem chave uma escolha forte para organizações que adotam soluções de gestão de identidade seguras e escaláveis.

Para usar autenticação sem chave, configure o seu recurso e conceda acesso aos utilizadores para realizar inferências. Depois de configurar o recurso e conceder acesso, autentique da seguinte forma:

Instale o SDK OpenAI usando um gestor de pacotes como pip:

pip install openai

Para autenticação do Microsoft Entra ID, instale também:

pip install azure-identity

Use a embalagem para consumir o modelo. O exemplo seguinte mostra como criar um cliente para consumir concluções de chat com o Microsoft Entra ID e fazer uma chamada de teste para o endpoint de conclusão de chat com a implementação do seu modelo.

Substitua <resource> pelo nome do seu recurso Foundry. Encontre-o no portal Azure ou executando az cognitiveservices account list. Substitui DeepSeek-V3.1 pelo nome real da tua implementação.

from openai import OpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(), 
    "https://ai.azure.com/.default"
)

client = OpenAI(
    base_url="https://<resource>.openai.azure.com/openai/v1/",
    api_key=token_provider,
)

completion = client.chat.completions.create(
    model="DeepSeek-V3.1",  # Required: your deployment name
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "What is Azure AI?"}
    ]
)

print(completion.choices[0].message.content)

Produção esperada

Azure AI is a comprehensive suite of artificial intelligence services and tools from Microsoft that enables developers to build intelligent applications. It includes services for natural language processing, computer vision, speech recognition, and machine learning capabilities.

Referência: OpenAI Python SDK e DefaultAzureCredential class.

Limitações

  • Não podes usar o Azure OpenAI Batch com o endpoint Foundry Models. Tem de usar o URL dedicado de implementação conforme explicado na documentação de suporte da API Batch no Azure OpenAI.
  • A API em tempo real não é suportada no endpoint de inferência. Use o URL dedicado de implementação.