Déployer les modèles Foundry de Microsoft vers une infrastructure de calcul gérée avec facturation à l’utilisation (classique)

S’applique uniquement au :Portail Foundry (classique). Cet article n’est pas disponible pour le nouveau portail Foundry. En savoir plus sur le nouveau portail.

Note

Les liens de cet article peuvent ouvrir du contenu dans la nouvelle documentation Microsoft Foundry au lieu de la documentation Foundry (classique) que vous affichez maintenant.

Microsoft Modèles Foundry incluent un catalogue complet de modèles organisés en deux catégories : les modèles vendus directement par Azure et les modèles models des partenaires et de la communauté. Les modèles des partenaires et de la communauté, que vous pouvez déployer sur le calcul managé, sont des modèles ouverts ou protégés. Dans cet article, vous allez apprendre à utiliser des modèles protégés à partir de partenaires et de la communauté, proposés via Place de marché Azure, pour déployer sur une infrastructure de calcul gérée avec facturation à l'usage.

Conditions préalables

Un abonnement Azure avec un mode de paiement valide. Les abonnements gratuits ou d'essai Azure ne fonctionnent pas. Si vous n'avez pas d'abonnement Azure, créez un compte de Azure payant à commencer.
Si vous n’en avez pas, créez un projet hub pour Foundry. Vous pouvez déployer sur une infrastructure managée à l’aide d’un projet hub. Un projet Foundry ne fonctionnera pas à cet effet.
Place de marché Azure achats activés pour votre abonnement Azure.
Les contrôles d’accès basé sur les rôles Azure (Azure RBAC) accordent l’accès à des opérations dans le portail Foundry. Pour effectuer les étapes décrites dans cet article, votre compte d’utilisateur doit être affecté à un rôle personnalisé avec les autorisations suivantes. Les comptes d’utilisateur affectés au rôle Owner ou Contributor pour l’abonnement Azure peuvent également créer des déploiements. Pour plus d’informations sur les autorisations, consultez contrôle d’accès en fonction du rôle dans le portail Foundry.
Dans l’abonnement Azure : pour abonner l’espace de travail/projet à l’offre de Place de marché Azure :
- Microsoft.MarketplaceOrdering/agreements/offers/plans/read
- Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
- Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
- Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
- Microsoft.SaaS/register/action
Sur le groupe de ressources : pour créer et utiliser la ressource SaaS :
- Microsoft.SaaS/resources/read
- Microsoft.SaaS/resources/write
Sur l’espace de travail—déployer des points de terminaison :
- Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
- Microsoft.MachineLearningServices/workspaces/onlineEndpoints/*

Étendue de l’abonnement et unité de mesure pour Place de marché Azure offre

Foundry offre une expérience d’abonnement et de transaction transparente pour les modèles protégés lorsque vous créez et consommez vos déploiements de modèles dédiés à grande échelle. Le déploiement de modèles protégés sur le calcul géré implique une facturation à l'utilisation pour le client selon deux dimensions :

Facturation à l’heure des ressources de calcul Azure Machine Learning pour les machines virtuelles utilisées dans le déploiement.
Facturation de surcharge pour le modèle tel que défini par l’éditeur de modèle sur l’offre de Place de marché Azure.

La facturation à l’utilisation des ressources de calcul Azure et la majoration liée aux modèles sont calculées au prorata, à la minute près, en fonction de la durée de fonctionnement des déploiements en ligne gérés. La surcharge d'un modèle est un prix par heure GPU, défini par le partenaire (ou l'éditeur du modèle) sur Place de marché Azure, pour toutes les GPU prises en charge que vous pouvez utiliser pour déployer le modèle sur le calcul managé Foundry.

L'abonnement d'un utilisateur aux offres Place de marché Azure est limité à la ressource du projet dans Foundry. Si un abonnement à l’offre Place de marché Azure pour un modèle particulier existe déjà dans le projet, l’utilisateur est informé dans l’Assistant déploiement que l’abonnement existe déjà pour le projet.

Note

Pour les microservices d’inférence NVIDIA (NIM), plusieurs modèles sont associés à une offre unique sur le marché. Vous devez donc uniquement vous abonner à l’offre NIM une fois dans un projet pour pouvoir déployer tous les NIMs proposés par NVIDIA dans le catalogue de modèles de Foundry. Si vous souhaitez déployer des modules NIM dans un autre projet sans abonnement SaaS existant, vous devez vous abonner de nouveau à l'offre.

Pour rechercher tous les abonnements SaaS qui existent dans un abonnement Azure :

Connectez-vous au portail Azure et accédez à votre abonnement Azure.
Sélectionnez Subscriptions puis sélectionnez votre abonnement Azure pour ouvrir sa page de vue d’ensemble.
Sélectionnez Paramètres>Ressources pour afficher la liste des ressources.
Utilisez le filtre Type pour sélectionner le type de ressource SaaS.

La surcharge basée sur la consommation est envoyée à l’abonnement SaaS associé et facture l’utilisateur via Place de marché Azure. Vous pouvez afficher la facture sous l’onglet Vue d’ensemble de l’abonnement SaaS respectif.

Conseil

Comme vous pouvez customiser le volet gauche dans le portail Microsoft Foundry, vous pouvez voir des éléments différents de ceux indiqués dans ces étapes. Si vous ne voyez pas ce que vous recherchez, sélectionnez ... Plus en bas du volet gauche.

Connectez-vous à Microsoft Foundry. Assurez-vous que l'interrupteur New Foundry est désactivé. Ces étapes font référence à Foundry (classique).
Si vous n’êtes pas déjà dans votre projet, sélectionnez-le.
Sélectionnez Catalogue de modèles dans le volet gauche.
Filtrez la liste des modèles en sélectionnant la collection et le modèle de votre choix. Cet article utilise Cohere Command A dans la liste des modèles pris en charge pour l’illustration.
Dans la page du modèle, sélectionnez Utiliser ce modèle pour ouvrir l’Assistant Déploiement.
Si des options d’achat sont présentées, sélectionnez Calcul managé.
Si vous n’avez pas de quota dédié, cochez la case en regard de l’instruction : je souhaite utiliser le quota partagé et je reconnais que ce point de terminaison sera supprimé en 168 heures.
Choisissez parmi l’une des références SKU de machine virtuelle prises en charge pour le modèle. Vous devez avoir Azure Machine Learning quota de calcul pour cette référence SKU dans votre abonnement Azure.
Sélectionnez Personnaliser pour spécifier votre configuration de déploiement pour les paramètres tels que le nombre d’instances. Vous pouvez également sélectionner un point de terminaison existant pour le déploiement ou en créer un nouveau. Pour cet exemple, spécifiez un nombre d’instances de 1 et créez un point de terminaison pour le déploiement.
Sélectionnez Suivant pour passer à la page de répartition des prix .
Passez en revue la répartition des tarifs pour le déploiement, les conditions d'utilisation et le contrat de licence associés à l'offre du modèle sur Place de marché Azure. La répartition des prix vous indique la tarification agrégée du modèle déployé, où la surcharge pour le modèle est une fonction du nombre de GPU dans l’instance de machine virtuelle que vous avez sélectionnée dans les étapes précédentes. Outre la surcharge applicable pour le modèle, Azure frais de calcul s’appliquent également en fonction de votre configuration de déploiement. Si vous avez des réservations existantes ou Azure plan d’épargne, la facture des frais de calcul respecte et reflète la tarification des machines virtuelles remises.
Cochez la case pour confirmer que vous comprenez et acceptez les conditions d’utilisation. Ensuite, sélectionnez Déployer. Foundry crée votre abonnement à l’offre de la Place de marché, puis crée le déploiement du modèle sur un calcul managé. La fin du déploiement prend environ 15 à 20 minutes.

Consommer des déploiements

Une fois que vous avez créé votre déploiement avec succès, procédez comme suit pour le consommer :

Sélectionnez Modèles + points de terminaison sous Mes ressources dans votre projet Foundry.
Sélectionnez votre déploiement dans l’onglet Déploiements de modèles .
Accédez à l’onglet Test pour obtenir un exemple d’inférence au point de terminaison.
Revenez à l’onglet Détails pour copier l’URI cible du déploiement, que vous pouvez utiliser pour exécuter l’inférence avec du code.
Accédez à l’onglet Consommer du déploiement pour rechercher des exemples de code à des fins de consommation.

Isolation réseau des déploiements

Vous pouvez déployer des collections dans le catalogue de modèles au sein de vos réseaux isolés à l’aide d’un réseau virtuel géré par l’espace de travail. Pour plus d’informations sur la configuration de vos réseaux managés d’espace de travail, consultez Configurer un réseau virtuel managé pour autoriser le trafic sortant Internet.

Limitation

Un projet Foundry avec accès réseau public d’entrée désactivé ne peut prendre en charge qu’un seul déploiement actif de l’un des modèles protégés à partir du catalogue. Les tentatives de créer des déploiements plus actifs échouent.

Modèles pris en charge

Les sections suivantes répertorient les modèles pris en charge pour le déploiement de calcul managé avec facturation à l'usage, regroupés par collection.

IA Boson

Modèle	Tâche
bosonai-higgs-audio-v3-stt	Reconnaissance vocale automatique
Higgs-Audio-v2.5	Génération audio

Cohere

Modèle	Tâche
Commande A	Achèvement de la conversation
Intégrer v4	Incorporations
Rerank v3.5	Classification de texte
Cohere-rerank-v4.0-pro	reclassement de la classification de texte
Cohere-rerank-v4.0-fast	Réorganisation de la classification de texte

Domyn

Modèle	Tâche
Domyn-Large	Complétion de la conversation

Inception Labs

Modèle	Tâche
Mercure	Achèvement de conversation, génération de texte, résumé

NVIDIA

Les microservices d’inférence NVIDIA (NIM) sont des conteneurs que NVIDIA crée pour des modèles IA optimisés préentraînés et personnalisés servant sur des GPU NVIDIA. Vous pouvez déployer des cartes réseau NVIDIA disponibles sur le catalogue de modèles Foundry avec un abonnement Standard à l’offre SaaS NVIDIA NIM sur Place de marché Azure.

Voici quelques remarques importantes à noter sur les modules d'interface réseau :

Les modules d'interface réseau incluent un essai de 90 jours. La version d’évaluation s’applique à tous les NIMs associés à un abonnement SaaS particulier et commence dès la création de l’abonnement SaaS.
Étendue des abonnements SaaS à un projet Foundry. Étant donné que plusieurs modèles sont associés à une seule offre Place de marché Azure, vous devez vous abonner une seule fois à l'offre NIM au sein d'un projet, puis vous pouvez déployer toutes les cartes réseau proposées par NVIDIA dans le catalogue de modèles Foundry. Si vous souhaitez déployer des modules NIM dans un autre projet sans abonnement SaaS existant, vous devez vous abonner de nouveau à l'offre.

Modèle	Tâche
NVIDIA-Nemotron-3-Super-NIM-microservice	Achèvement de chat, réponses aux questions, Synthèse de texte, génération de texte, Résumés de texte
Openfold3_1_2_0-NIM-microservice	Prédiction de structure complexe biomoléculaire
Llama-3.3-Nemotron-Super-49B-v1-NIM-microservice	Achèvement de la conversation
Llama-3.1-Nemotron-Nano-8B-v1-NIM-microservice	Achèvement du chat
Deepseek-R1-Distill-Llama-8B-NIM-microservice	Achèvement du chat
Llama-3.3-70B-Instruct-NIM-microservice	Achèvement du chat
Llama-3.1-8B-Instruct-NIM-microservice	Achèvement du chat
Mistral-7B-Instruct-v0.3-NIM-microservice	Achèvement du chat
Mixtral-8x7B-Instruct-v0.1-NIM-microservice	Achèvement du chat
Llama-3.2-NV-embedqa-1b-v2-NIM-microservice	Incorporations
Llama-3.2-NV-rerankqa-1b-v2-NIM-microservice	Classification de texte
Openfold2-NIM-microservice	Classeur de protéines
ProteinMPNN-NIM-microservice	Classeur de protéines
MSA-search-NIM-microservice	Classeur de protéines
Rfdiffusion-NIM-microservice	Classeur de protéines
NVIDIA-Nemotron-Nano-9b-v2-NIM-microservice	Achèvement du chat
Trellis-NIM-microservice	Image à 3D, texte à 3D, génération 3D
Cosmos-reason1-NIM-microservice	Vérification de l'achèvement des tâches, affordance d'action, prédiction de la prochaine action plausible
Evo2-40b-NIM-microservice	Génomique
Boltz2-NIM-microservice	Prédiction de structure
Llama-3.3-Nemotron-Super-49B-v1.5-NIM-microservice	Achèvement de chat, Résumés

Utiliser des déploiements NVIDIA NIM

Après avoir créé votre déploiement, suivez les étapes de l’utilisation des déploiements pour l’utiliser.

Les NIM NVIDIA sur Foundry exposent une API compatible avec OpenAI. Consultez la référence de l’API pour en savoir plus sur la charge utile prise en charge. Le paramètre model pour les NIMs sur Foundry est défini par défaut dans le conteneur et n’est pas requis dans la charge utile de la requête pour votre point de terminaison en ligne. L’onglet Consommer du déploiement NIM sur Foundry inclut des exemples de code pour l’inférence avec l’URL cible de votre déploiement.

Vous pouvez également exploiter les déploiements NIM en utilisant le Kit de développement logiciel (SDK) Foundry Models, avec certaines restrictions, parmi lesquelles :

La création et l’authentification de clients à l’aide de load_client ne sont pas prises en charge.
Vous devez appeler la méthode get_model_info cliente pour récupérer les informations du modèle.

Développer et exécuter des agents avec des interfaces NIM

Les NVIDIA NIM suivants du type de tâche de complétion de conversation dans le catalogue de modèles peuvent être utilisés pour créer et exécuter des agents à l’aide d’Agent Service à l’aide de divers outils pris en charge, avec les deux exigences supplémentaires suivantes :

Connectez le projet en mode serverless à l’aide du point de terminaison NIM et de la clé. L’URL cible du point de terminaison NIM dans la connexion doit être https://<endpoint-name>.region.inference.ml.azure.com/v1/.
Définissez le paramètre de modèle dans le corps de la demande sous la forme https://<endpoint>.region.inference.ml.azure.com/v1/@<parameter value per table below> lors de la création et de l'exécution des agents.

NVIDIA NIM	`model` valeur du paramètre
Llama-3.3-70B-Instruct-NIM-microservice	meta/llama-3.3-70b-instruct
Llama-3.1-8B-Instruct-NIM-microservice	meta/llama-3.1-8b-instruct
Mistral-7B-Instruct-v0.3-NIM-microservice	mistralai/mistral-7b-instruct-v0.3

Scan de sécurité

NVIDIA garantit la sécurité et la fiabilité des images conteneur NVIDIA NIM grâce à l’analyse des vulnérabilités optimale, à la gestion rigoureuse des correctifs et aux processus transparents. Microsoft travaille avec NVIDIA pour obtenir les derniers correctifs des modules d'interface réseau pour fournir des logiciels sécurisés, stables et fiables dans Foundry.

Vous pouvez faire référence à la dernière heure mise à jour du NIM dans le volet droit de la page de vue d’ensemble du modèle. Vous pouvez redéployer afin de consommer la dernière version de NIM de NVIDIA sur Foundry.

Paige AI

Modèle	Tâche
Virchow2G	Extraction de caractéristiques d'image
Virchow2G-Mini	Extraction des caractéristiques de l'image

Voyage IA

Modèle	Tâche
voyage-3.5-embedding-model	Incorporations

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-05-01