Puntos de conexión para modelos de Microsoft Foundry (clásico)

Visualización actual:Versión - Cambio a la versión del nuevo portal de Foundry

Microsoft Foundry Models permite acceder a los modelos más eficaces de los proveedores de modelos líderes a través de un único punto de conexión y un conjunto de credenciales. Esta funcionalidad le permite cambiar entre modelos y usarlas en la aplicación sin cambiar ningún código.

En este artículo se explica cómo los servicios Foundry organizan los modelos y cómo usar el punto de conexión de inferencia para acceder a ellos.

Importante

Azure SDK beta de inferencia de IA está en desuso y se retirará el 26 de agosto de 2026. Cambie a la API openAI/v1 disponible con carácter general con un SDK estable de OpenAI. Siga la guía de migración para cambiar a OpenAI/v1 mediante el SDK para su lenguaje de programación preferido.

Implementaciones

Foundry usa implementaciones para poner los modelos a disposición. Las implementaciones asignan un nombre a un modelo y establecen configuraciones específicas. Puede acceder a un modelo en sus solicitudes mediante su nombre de implementación.

Una implementación incluye:

  • Un nombre de modelo
  • Una versión del modelo
  • Una provisión o tipo de capacidad1
  • Una configuración de filtrado de contenido1
  • Una configuración de limitación de velocidad1

1 Estas configuraciones pueden cambiar según el modelo seleccionado.

Un recurso Foundry puede tener muchas implementaciones de modelos. Solo se paga por la inferencia realizada en las implementaciones de modelos. Las implementaciones son Azure recursos, por lo que están sujetas a directivas de Azure.

Para obtener más información sobre la creación de implementaciones, consulte Incorporación y configuración de implementaciones de modelos.

Puntos de conexión

Los servicios foundry proporcionan varios puntos de conexión en función del tipo de trabajo que desee realizar:

Punto de conexión de inferencia de IA de Azure

Nota

Los ejemplos del SDK de inferencia de inteligencia artificial de Azure de esta sección siguen siendo totalmente funcionales. Sin embargo, para los nuevos proyectos, se recomienda usar el punto de conexión de OpenAI Azure con el SDK de OpenAI. Para obtener instrucciones sobre la migración, consulte Migrate de Azure SDK de inferencia de IA al SDK de OpenAI.

El punto de conexión de inferencia de Azure IA, normalmente con el formato https://<resource-name>.services.ai.azure.com/models, le permite usar un único punto de conexión con la misma autenticación y esquema para generar inferencia para los modelos desplegados en el recurso. Todos los modelos foundry admiten esta funcionalidad. Este punto de conexión sigue la API Azure AI Model Inference API, que admite las siguientes modalidades:

  • Incrustaciones de texto
  • Incrustaciones de imágenes
  • Completaciones del chat

Enrutamiento

El punto de conexión de inferencia enruta las solicitudes a una implementación específica mediante la coincidencia del name parámetro de la solicitud con el nombre de la implementación. Esta configuración significa que las implementaciones funcionan como alias para un modelo en determinadas configuraciones. Esta flexibilidad le permite implementar un modelo varias veces en el servicio, pero con configuraciones diferentes si es necesario.

Ilustración en la que se muestra cómo funciona el enrutamiento para un modelo indicando el nombre del modelo en el parámetro

Por ejemplo, si crea una implementación denominada Mistral-large, puede invocar esa implementación de la siguiente manera:

Instale el paquete azure-ai-inference mediante el administrador de paquetes, como pip:

pip install azure-ai-inference

A continuación, puede usar el paquete para consumir el modelo. En el ejemplo siguiente se muestra cómo crear un cliente para consumir finalizaciones de chat:

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

client = ChatCompletionsClient(
    endpoint="https://<resource>.services.ai.azure.com/models",
    credential=AzureKeyCredential(os.environ["AZURE_INFERENCE_CREDENTIAL"]),
)

Explore nuestra samples y lea la documentación de referencia de API para empezar.

Para un modelo de chat, puede crear una solicitud de la siguiente manera:

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

Si especifica un nombre de modelo que no coincide con ninguna implementación del modelo, obtendrá un error que indica que el modelo no existe. Puede controlar qué modelos están disponibles para los usuarios mediante la creación de implementaciones de modelos. Para obtener más información, consulte Incorporación y configuración de implementaciones de modelos.

Azure punto de conexión de OpenAI para inferencia

El Azure OpenAI API expone las funcionalidades completas de los modelos openAI y admite más características como asistentes, subprocesos, archivos e inferencia por lotes. También puede acceder a modelos que no son de OpenAI a través de esta ruta.

Los puntos de conexión de Azure OpenAI, normalmente con el formato https://<resource-name>.openai.azure.com, operan a nivel de implementación y cada implementación tiene su propia URL asociada. Sin embargo, puede utilizar el mismo mecanismo de autenticación para hacer uso de las implementaciones. Para obtener más información, consulte la página de referencia de Azure OpenAI API.

 Ilustración que muestra cómo Azure implementaciones de OpenAI contienen una sola dirección URL para cada deployment.

Cada implementación tiene una dirección URL formada por la concatenación del Azure OpenAI dirección URL base y la ruta /deployments/<model-deployment-name>.

Instale el paquete openai mediante el administrador de paquetes, como pip:

pip install openai --upgrade

A continuación, puede usar el paquete para consumir el modelo. En el ejemplo siguiente se muestra cómo crear un cliente para consumir finalizaciones de chat:

import os
from openai import AzureOpenAI
    
client = AzureOpenAI(
    azure_endpoint = "https://<resource>.services.ai.azure.com"
    api_key=os.getenv("AZURE_INFERENCE_CREDENTIAL"),  
    api_version="2024-10-21",
)
response = client.chat.completions.create(
    model="deepseek-v3-0324", # Replace with your model deployment name.
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain Riemann's conjecture in 1 paragraph"}
    ]
)

print(response.model_dump_json(indent=2)

Para obtener más información sobre cómo usar el punto de conexión de OpenAI Azure, consulte Azure OpenAI en la documentación de Foundry Models.

Autenticación sin claves

Los modelos implementados en Foundry Models in Foundry Tools admiten la autorización sin claves mediante Microsoft Entra ID. La autorización sin claves mejora la seguridad, simplifica la experiencia del usuario, reduce la complejidad operativa y proporciona una sólida compatibilidad con el cumplimiento para el desarrollo moderno. Hace que la autorización sin claves sea una opción segura para las organizaciones que adoptan soluciones de administración de identidades seguras y escalables.

Para usar la autenticación sin claves, configure el recurso y conceda acceso a los usuarios para realizar la inferencia. Después de configurar el recurso y conceder acceso, autentíquese de la siguiente manera:

Instale el SDK de OpenAI mediante un administrador de paquetes como pip:

pip install openai

Para la autenticación de Microsoft Entra ID, instale también:

pip install azure-identity

Utiliza el paquete para consumir el modelo. En el siguiente ejemplo se muestra cómo crear un cliente para acceder a finalizaciones de chat con Microsoft Entra ID y realizar una llamada de prueba al punto final de las finalizaciones de chat con la implementación del modelo.

Reemplace <resource> con el nombre de su recurso Foundry. Encuéntrelo en el portal de Azure o bien ejecutando az cognitiveservices account list. Reemplace DeepSeek-V3.1 con su nombre de implementación real.

from openai import OpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(), 
    "https://ai.azure.com/.default"
)

client = OpenAI(
    base_url="https://<resource>.openai.azure.com/openai/v1/",
    api_key=token_provider,
)

completion = client.chat.completions.create(
    model="DeepSeek-V3.1",  # Required: your deployment name
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "What is Azure AI?"}
    ]
)

print(completion.choices[0].message.content)

Salida esperada

Azure AI is a comprehensive suite of artificial intelligence services and tools from Microsoft that enables developers to build intelligent applications. It includes services for natural language processing, computer vision, speech recognition, and machine learning capabilities.

Referencia: OpenAI Python SDK y clase DefaultAzureCredential.

Limitaciones

  • No puede usar Azure OpenAI Batch con el endpoint de los modelos de Foundry. Debe usar la URL de implementación dedicada, como se explica en la documentación de soporte de la API de Lote en Azure OpenAI.
  • No se admite la API en tiempo real en el punto de inferencia. Use la dirección URL de implementación dedicada.