Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
S’applique uniquement au :Portail Foundry (classique). Cet article n’est pas disponible pour le nouveau portail Foundry.
En savoir plus sur le nouveau portail.
Note
Les liens de cet article peuvent ouvrir du contenu dans la nouvelle documentation Microsoft Foundry au lieu de la documentation Foundry (classique) que vous affichez maintenant.
Le catalogue de modèles Foundry offre une grande sélection de modèles Microsoft Foundry à partir d’un large éventail de fournisseurs. Vous avez différentes options pour déployer des modèles à partir du catalogue de modèles. Cet article répertorie les exemples d’inférence pour les déploiements d’API serverless.
Important
Les modèles en préversion sont marqués comme préversion sur leurs cartes de modèle dans le catalogue de modèles.
Pour effectuer une inférence avec les modèles, certains modèles tels que TimeGEN-1 de Nixtla et rerank de Cohere nécessitent que vous utilisiez des API personnalisées à partir des fournisseurs de modèles. D’autres prennent en charge l’inférence à l’aide de l’API d’inférence de modèle. Vous trouverez plus d’informations sur les modèles individuels en examinant leurs cartes de modèle dans le catalogue de modèles pour le portail Foundry.
Cohere
La famille de modèles Cohere comprend différents modèles optimisés pour différents cas d’usage, notamment la reclassation, les achèvements de conversation et les modèles d’incorporation.
Exemples d’inférence : Commande Cohere et incorporation
Le tableau suivant fournit des liens vers des exemples d’utilisation de modèles Cohere.
| Description | Langue | Échantillon |
|---|---|---|
| Requêtes web | Bash |
Command-RCommand-R+ cohere-embed.ipynb |
| Azure package d’inférence IA pour C# | C# | Link |
| Azure package d’inférence IA pour JavaScript | Javascript | Link |
| Azure package d’inférence IA pour Python | Python | Lien |
| Kit de développement logiciel (SDK) OpenAI (expérimental) | Python | Lien |
| LangChain | Python | Lien |
| Kit de développement logiciel (SDK) Cohere | Python |
Commande Incorporer |
| LiteLLM SDK | Python | Link |
Utilisation d'exemples avec la génération augmentée par récupération (RAG) et l'usage d'outils : commande Cohere et intégration
| Description | Paquets | Échantillon |
|---|---|---|
| Créer un index vectoriel de recherche de similarité d’IA Facebook (FAISS) local, à l’aide d’incorporations Cohere - Langchain |
langchain, langchain_cohere |
cohere_faiss_langchain_embed.ipynb |
| Utiliser Cohere Command R/R+ pour répondre aux questions à partir des données dans l’index vectoriel FAISS local - Langchain |
langchain, langchain_cohere |
command_faiss_langchain.ipynb |
| Utiliser Cohere Command R/R+ pour répondre aux questions des données dans l’index vectoriel de recherche IA - Langchain |
langchain, langchain_cohere |
cohere-aisearch-langchain-rag.ipynb |
| Utiliser Cohere Command R/R+ pour répondre aux questions des données dans l’index vectoriel de recherche IA - Kit de développement logiciel (SDK) Cohere |
cohere, azure_search_documents |
cohere-aisearch-rag.ipynb |
| Utilisation de la commande R+ pour appeler des fonctions avec LangChain |
cohere, langchain, langchain_cohere |
command_tools-langchain.ipynb |
Réorganisation Cohere
Pour effectuer une inférence avec des modèles de reclassement Cohere, vous devez utiliser les API personnalisées de Cohere. Pour plus d’informations sur le modèle de reclassement Cohere et ses fonctionnalités, consultez Rerank Cohere.
Tarification des modèles de reclassement Cohere
Les requêtes, qui ne doivent pas être confondues avec la requête d’un utilisateur, sont un compteur de tarification qui fait référence au coût associé aux jetons utilisés comme entrée pour l’inférence d’un modèle Cohere Rerank. Cohere compte une seule unité de recherche sous forme de requête avec jusqu’à 100 documents à classer. Les documents de plus de 500 jetons (pour Cohere-rerank-v3.5) ou de plus de 4096 jetons (pour Cohere-rerank-v3-English et Cohere-rerank-v3-multilingue), lorsque l'on inclut la longueur de la requête de recherche, sont divisés en plusieurs blocs, chaque bloc étant considéré comme un document unique.
Consultez la collection de modèles Cohere dans le portail Foundry.
Core42
Le tableau suivant fournit des liens vers des exemples d’utilisation des modèles Jais.
| Description | Langue | Échantillon |
|---|---|---|
| Azure package d’inférence IA pour C# | C# | Link |
| Azure package d’inférence IA pour JavaScript | Javascript | Link |
| Azure package d’inférence IA pour Python | Python | Lien |
DeepSeek
La famille de modèles DeepSeek comprend DeepSeek-R1, qui excelle dans les tâches de raisonnement à l’aide d’un processus de formation pas à pas, tel que le langage, le raisonnement scientifique et les tâches de codage, DeepSeek-V3-0324, un modèle de langage MoE (Mix-of-Experts), etc.
Le tableau suivant fournit des liens vers des exemples d’utilisation des modèles DeepSeek.
| Description | Langue | Échantillon |
|---|---|---|
| Azure package d’inférence IA pour Python | Python | Lien |
| Azure package d’inférence IA pour JavaScript | Javascript | Lien |
| Azure package d’inférence IA pour C# | C# | Lien |
| Azure package d’inférence IA pour Java | Java | Link |
Meta
Les modèles et outils Meta Llama sont une collection de modèles de texte et de raisonnement d’image générés préentraînés et affinés. La plage de méta-modèles est mise à l’échelle pour inclure :
- Petits modèles de langage (SLMs) tels que les modèles 1B et 3B Base et Instruct pour l’inférence sur l'appareil et en périphérie.
- Modèles de langage de taille moyenne (LLMs) tels que 7B, 8B et 70B Base et Instruct
- Modèles performants tels que Meta Llama 3.1-405B Instruct pour la génération de données synthétiques et les cas d’usage de la distillation.
- Des modèles multimodaux performants en mode natif, Llama 4 Scout et Llama 4 Maverick, tirent parti d’une architecture de mélange d’experts pour offrir des performances de pointe dans le texte et la compréhension de l’image.
Le tableau suivant fournit des liens vers des exemples d’utilisation des modèles Meta Llama.
| Description | Langue | Échantillon |
|---|---|---|
| Requête CURL | Bash | Lien |
| Azure package d’inférence IA pour C# | C# | Link |
| Azure package d’inférence IA pour JavaScript | Javascript | Link |
| Azure package d’inférence IA pour Python | Python | Lien |
| requêtes web Python | Python | Lien |
| Kit de développement logiciel (SDK) OpenAI (expérimental) | Python | Lien |
| LangChain | Python | Lien |
| LiteLLM | Python | Lien |
Microsoft
Microsoft modèles incluent différents groupes de modèles tels que les modèles MAI, Les modèles Phi, les modèles IA de santé, etc. Pour afficher tous les modèles Microsoft disponibles, affichez la collection de modèles Microsoft dans le portail Foundry.
Le tableau suivant fournit des liens vers des exemples d’utilisation de modèles Microsoft.
| Description | Langue | Échantillon |
|---|---|---|
| Azure package d’inférence IA pour C# | C# | Link |
| Azure package d’inférence IA pour JavaScript | Javascript | Link |
| Azure package d’inférence IA pour Python | Python | Lien |
| LangChain | Python | Lien |
| Llama-Index | Python | Lien |
Consultez la collection de modèles Microsoft dans le portail Foundry.
Mistral AI
Mistral AI propose deux catégories de modèles, à savoir :
- Modèles Premium : Les modèles Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) et Ministral 3B sont disponibles en tant qu’API serverless avec facturation basée sur les jetons de paiement à l’utilisation.
- Modèles ouverts : Ceux-ci incluent Mistral-small-2503, Codestral et Mistral Nemo (qui sont disponibles en tant qu’API serverless avec facturation basée sur le paiement à l’utilisation) et Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 et Mistral-7B-v01(qui sont disponibles pour télécharger et exécuter sur des points de terminaison managés auto-hébergés).
Le tableau suivant fournit des liens vers des exemples d’utilisation de modèles Mistral.
| Description | Langue | Échantillon |
|---|---|---|
| Requête CURL | Bash | Lien |
| Azure package d’inférence IA pour C# | C# | Link |
| Azure package d’inférence IA pour JavaScript | Javascript | Link |
| Azure package d’inférence IA pour Python | Python | Lien |
| requêtes web Python | Python | Lien |
| Kit de développement logiciel (SDK) OpenAI (expérimental) | Python | Mistral - Exemple de Kit de développement logiciel (SDK) OpenAI |
| LangChain | Python | Mistral - Exemple LangChain |
| Mistral AI | Python | Mistral - Exemple d’IA Mistral |
| LiteLLM | Python | Mistral - Échantillon LiteLLM |
Nixtla
TimeGEN-1 de Nixtla est un modèle de prévision préentraîné et de détection des anomalies pour les données de série chronologique. TimeGEN-1 peut produire des prévisions précises pour de nouvelles séries chronologiques sans formation, en utilisant uniquement des valeurs historiques et des covariés exogènes comme entrées.
Pour effectuer l’inférence, TimeGEN-1 vous oblige à utiliser l’API d’inférence personnalisée de Nixtla. Pour plus d’informations sur le modèle TimeGEN-1 et ses fonctionnalités, consultez Nixtla.
Estimer le nombre de jetons nécessaires
Avant de créer un déploiement TimeGEN-1, il est utile d’estimer le nombre de jetons que vous envisagez d’utiliser et d’être facturés. Un jeton correspond à un point de données dans votre jeu de données d’entrée ou jeu de données de sortie.
Supposons que vous disposez du jeu de données de série chronologique d’entrée suivant :
| Unique_id | Horodatage | Variable cible | Variable exogène 1 | Variable exogène 2 |
|---|---|---|---|---|
| BE | 2016-10-22 00:00:00 | 70.00 | 49593.0 | 57253.0 |
| BE | 2016-10-22 01:00:00 | 37.10 | 46073.0 | 51887.0 |
Pour déterminer le nombre de jetons, multipliez le nombre de lignes (dans cet exemple, deux) et le nombre de colonnes utilisées pour la prévision, sans compter les colonnes de unique_id et d’horodatage (dans cet exemple, trois) pour obtenir un total de six jetons.
Compte tenu du jeu de données de sortie suivant :
| Unique_id | Horodatage | Variable cible prévue |
|---|---|---|
| BE | 2016-10-22 02:00:00 | 46.57 |
| BE | 2016-10-22 03:00:00 | 48.57 |
Vous pouvez également déterminer le nombre de jetons en comptant le nombre de points de données retournés après la prévision des données. Dans cet exemple, le nombre de jetons est de deux.
Estimer la tarification en fonction des jetons
Quatre compteurs tarifaires déterminent le prix que vous payez. Ces compteurs sont les suivants :
| Compteur tarifaire | Description |
|---|---|
| jetons-d'entrée-d'inférence-paygo | Coûts associés aux jetons utilisés comme entrée pour l’inférence lorsque finetune_steps = 0 |
| paygo-jetons-de-sortie-d'inférence | Coûts associés aux jetons utilisés comme sortie pour l’inférence lorsque finetune_steps = 0 |
| jetons-d'entrée-pour-inférence-modèle-affiné-paygo | Coûts associés aux jetons utilisés comme entrée pour l’inférence lorsque finetune_steps> 0 |
| sortie-des-tokens-d'inférence-du-modèle-affiné-paygo | Coûts associés aux jetons utilisés comme sortie pour l’inférence lorsque finetune_steps> 0 |
Consultez la collection de modèles Nixtla dans le portail Foundry.
IA de stabilité
Les modèles IA de stabilité déployés via le déploiement d’API serverless implémentent l’API d’inférence de modèle sur l’itinéraire /image/generations.
Pour obtenir des exemples d’utilisation des modèles IA de stabilité, consultez les exemples suivants :
- Utilisez le SDK d'OpenAI avec les modèles de Stability AI pour les demandes de texte à image
- Utilisez la bibliothèque Requests avec les modèles de Stability AI pour les requêtes de texte à image
- Utilisez la bibliothèque Requests avec Stable Diffusion 3.5 Large pour les requêtes d'image à image
- Example d’une réponse de génération d’image entièrement encodée
Gretel Navigator
Gretel Navigator utilise une architecture d’IA composée spécialement conçue pour les données synthétiques, en combinant des modèles de petite langue open source (SLMs) affinés dans plus de 10 domaines industriels. Ce système conçu spécialement crée des jeux de données variés et spécifiques au domaine à l'échelle de centaines à des millions d'exemples. Le système conserve également des relations statistiques complexes et offre une vitesse et une précision accrues par rapport à la création manuelle de données.
| Description | Langue | Échantillon |
|---|---|---|
| Azure package d’inférence IA pour JavaScript | Javascript | Lien |
| Azure package d’inférence IA pour Python | Python | Lien |