Points de terminaison pour les modèles Microsoft Foundry (classique)

Affichage actuel :Version du portail - Passer à la version du nouveau portail Foundry

Microsoft Foundry Models vous permet d’accéder aux modèles les plus puissants des principaux fournisseurs de modèles via un seul point de terminaison et un ensemble d’informations d’identification. Cette fonctionnalité vous permet de basculer entre les modèles et de les utiliser dans votre application sans modifier de code.

Cet article explique comment les services Foundry organisent les modèles et comment utiliser le point de terminaison d’inférence pour y accéder.

Important

Azure SDK bêta d’inférence d’IA est déconseillé et sera mis hors service le 26 août 2026. Basculez vers l’API OpenAI/v1 généralement disponible avec un SDK OpenAI stable. Suivez le guide de migration pour passer à OpenAI/v1 à l’aide du Kit de développement logiciel (SDK) pour votre langage de programmation préféré.

Déploiements

Foundry utilise des déploiements pour rendre les modèles disponibles. Les déploiements donnent un nom à un modèle et définissent des configurations spécifiques. Vous pouvez accéder à un modèle à l’aide de son nom de déploiement dans vos demandes.

Un déploiement inclut :

  • Nom d’un modèle
  • Version d’un modèle
  • Un provisionnement ou un type de capacité1
  • Configuration du filtrage de contenu1
  • Configuration de limitation de débit1

1 Ces configurations peuvent changer en fonction du modèle sélectionné.

Une ressource Foundry peut avoir de nombreux déploiements de modèles. Vous payez uniquement pour l’inférence effectuée sur les déploiements de modèles. Les déploiements sont des ressources Azure, donc soumis à des stratégies Azure.

Pour plus d’informations sur la création de déploiements, consultez Ajouter et configurer des déploiements de modèles.

Points de terminaison

Les services Foundry fournissent plusieurs points de terminaison en fonction du type de travail que vous souhaitez effectuer :

Azure point de terminaison d’inférence IA

Note

Les exemples Azure SDK d’inférence IA de cette section restent entièrement fonctionnels. Toutefois, pour les nouveaux projets, nous vous recommandons d’utiliser le point de terminaison Azure OpenAI avec le Kit de développement logiciel (SDK) OpenAI. Pour obtenir des conseils sur la migration, consultez Migrer de SDK d’inférence Azure AI au SDK OpenAI.

Le point de terminaison d’inférence Azure AI, généralement de la forme https://<resource-name>.services.ai.azure.com/models, vous permet d’utiliser un seul point de terminaison avec la même authentification et le même schéma pour effectuer l’inférence pour les modèles déployés dans la ressource. Tous les modèles Foundry prennent en charge cette fonctionnalité. Ce point de terminaison suit l’API d’inférence Azure AI Model Inference, qui prend en charge les modalités suivantes :

  • Incorporations de texte
  • Incorporations d’images
  • Finalisation de la conversation

Routage

Le point de terminaison d’inférence achemine les demandes vers un déploiement spécifique en faisant correspondre le paramètre name de la demande au nom du déploiement. Cette configuration signifie que les déploiements fonctionnent en tant qu’alias pour un modèle sous certaines configurations. Cette flexibilité vous permet de déployer un modèle plusieurs fois dans le service, mais avec différentes configurations si nécessaire.

Illustration montrant comment le routage fonctionne pour un modèle en indiquant le nom du modèle dans le paramètre « modèle » de la demande de charge utile.

Par exemple, si vous créez un déploiement nommé Mistral-large, vous pouvez appeler ce déploiement comme suit :

Installez le package à l’aide de votre gestionnaire de package azure-ai-inference , par exemple pip :

pip install azure-ai-inference

Ensuite, vous pouvez utiliser le package pour consommer le modèle. L’exemple suivant montre comment créer un client pour consommer des complétions de chat :

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

client = ChatCompletionsClient(
    endpoint="https://<resource>.services.ai.azure.com/models",
    credential=AzureKeyCredential(os.environ["AZURE_INFERENCE_CREDENTIAL"]),
)

Explorez notre samples et lisez la documentation de référence API pour commencer.

Pour un modèle de conversation, vous pouvez créer une demande comme suit :

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
    ],
    model="mistral-large"
)

print(response.choices[0].message.content)

Si vous spécifiez un nom de modèle qui ne correspond à aucun déploiement de modèle, vous obtenez une erreur indiquant que le modèle n’existe pas. Vous contrôlez les modèles disponibles pour les utilisateurs en créant des déploiements de modèles. Pour plus d’informations, consultez ajouter et configurer des déploiements de modèles.

Azure point de terminaison d’inférence OpenAI

Le Azure API OpenAI expose les fonctionnalités complètes des modèles OpenAI et prend en charge d’autres fonctionnalités telles que les assistants, les threads, les fichiers et l’inférence par lots. Vous pouvez également accéder à des modèles non OpenAI via cet itinéraire.

Azure OpenAI points de terminaison, généralement de la forme https://<resource-name>.openai.azure.com, fonctionnent au niveau du déploiement et chaque déploiement a sa propre URL associée. Toutefois, vous pouvez utiliser le même mécanisme d’authentification pour accéder aux déploiements. Pour plus d’informations, consultez la page de référence de Azure API OpenAI.

Une illustration montrant comment les déploiements Azure OpenAI contiennent une URL unique pour chaque déploiement.

Chaque déploiement a une URL formée en concaténant l'URL de base Azure OpenAI et l'itinéraire /deployments/<model-deployment-name>.

Installez le package à l’aide de votre gestionnaire de package openai , par exemple pip :

pip install openai --upgrade

Ensuite, vous pouvez utiliser le package pour consommer le modèle. L’exemple suivant montre comment créer un client pour consommer des complétions de chat :

import os
from openai import AzureOpenAI
    
client = AzureOpenAI(
    azure_endpoint = "https://<resource>.services.ai.azure.com"
    api_key=os.getenv("AZURE_INFERENCE_CREDENTIAL"),  
    api_version="2024-10-21",
)
response = client.chat.completions.create(
    model="deepseek-v3-0324", # Replace with your model deployment name.
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain Riemann's conjecture in 1 paragraph"}
    ]
)

print(response.model_dump_json(indent=2)

Pour plus d’informations sur l’utilisation du point de terminaison Azure OpenAI, consultez la documentation Azure OpenAI dans les modèles Foundry.

Authentification sans clé

Les modèles déployés sur les modèles Foundry dans Foundry Tools prennent en charge l’autorisation sans clé à l’aide de Microsoft Entra ID. L’autorisation sans clé améliore la sécurité, simplifie l’expérience utilisateur, réduit la complexité opérationnelle et fournit une prise en charge robuste de la conformité pour le développement moderne. Il rend l’autorisation sans clé un choix fort pour les organisations qui adoptent des solutions de gestion des identités sécurisées et évolutives.

Pour utiliser l’authentification sans clé, configurez votre ressource et accordez l’accès aux utilisateurs pour effectuer l’inférence. Après avoir configuré la ressource et accordé l’accès, authentifiez-vous comme suit :

Installez le Kit de développement logiciel (SDK) OpenAI à l’aide d’un gestionnaire de package tel que pip :

pip install openai

Pour l’authentification Microsoft Entra ID, installez également :

pip install azure-identity

Utilisez le package logiciel pour exploiter le modèle. L’exemple suivant montre comment créer un client pour consommer des achèvements de chat avec Microsoft Entra ID et effectuer un appel de test au point de terminaison de complétion de chat avec votre déploiement de modèle.

Remplacez par <resource> le nom de votre ressource Foundry. Recherchez-le dans le portail Azure ou en exécutant az cognitiveservices account list. Remplacez par DeepSeek-V3.1 votre nom de déploiement réel.

from openai import OpenAI
from azure.identity import DefaultAzureCredential, get_bearer_token_provider

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(), 
    "https://ai.azure.com/.default"
)

client = OpenAI(
    base_url="https://<resource>.openai.azure.com/openai/v1/",
    api_key=token_provider,
)

completion = client.chat.completions.create(
    model="DeepSeek-V3.1",  # Required: your deployment name
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "What is Azure AI?"}
    ]
)

print(completion.choices[0].message.content)

Sortie attendue

Azure AI is a comprehensive suite of artificial intelligence services and tools from Microsoft that enables developers to build intelligent applications. It includes services for natural language processing, computer vision, speech recognition, and machine learning capabilities.

Référence : OpenAI Python SDK et DefaultAzureCredential class.

Limitations

  • Vous ne pouvez pas utiliser Azure OpenAI Batch avec le point de terminaison Foundry Models. Vous devez utiliser l’URL de déploiement dédiée, comme expliqué dans la prise en charge de l'API Batch dans la documentation Azure OpenAI.
  • L’API en temps réel n’est pas prise en charge dans le point de terminaison d’inférence. Utilisez l’URL de déploiement dédiée.