Ouvrir l’outil LLM du modèle

Warning

Le développement de fonctionnalités Prompt Flow a pris fin le 20 avril 2026. La fonctionnalité sera entièrement retirée le 20 avril 2027. À la date de mise hors service, le flux d’invite entre en mode lecture seule. Vos flux existants continueront à fonctionner jusqu’à cette date.

Action recommandée : Migrer vos charges de travail de flux d’invite vers Microsoft Agent Framework avant le 20 avril 2027.

L’outil Open Model LLM permet d’utiliser différents modèles Open Model et Foundational Models, tels que Falcon et Llama 2, pour le traitement du langage naturel dans Azure Machine Learning flux d’invite.

Caution

Deprecation notice : L’outil Open Model LLM a été déconseillé en faveur de l’outil LLM, qui fournit une prise en charge de tous les modèles pris en charge par l’API de modèle IA Azure et donc il offre une plus grande flexibilité.

Voici comment il ressemble en action sur l'extension de flux d'invite Visual Studio Code. Dans cet exemple, l’outil est utilisé pour appeler un point de terminaison de conversation LlaMa-2 et demander « Qu’est-ce que CI ? ».

Screenshot qui affiche l’outil Open Model LLM sur Visual Studio Code invite d’extension de flux.

Cet outil de flux d’invite prend en charge deux types d’API LLM différents :

  • Conversation : illustré dans l’exemple précédent. Le type d’API de conversation facilite les conversations interactives avec des entrées et des réponses textuelles.
  • Saisie semi-automatique : le type d’API d’achèvement est utilisé pour générer des saisies de texte de réponse uniques en fonction de l’entrée d’invite fournie.

Vue d’ensemble rapide : Comment utiliser l’outil Open Model LLM ?

  1. Choisissez un modèle dans le catalogue de modèles Azure Machine Learning et déployez-le.
  2. Connectez-vous au déploiement du modèle.
  3. Configurez les paramètres de l’outil llm de modèle ouvert.
  4. Préparez l’invite.
  5. Exécutez le flux.

Conditions préalables : Déploiement de modèle

  • Choisissez le modèle correspondant à votre scénario à partir du catalogue de modèles Azure Machine Learning.
  • Utilisez le bouton Deploy pour déployer le modèle sur un point de terminaison d’inférence en ligne Azure Machine Learning.
    • Utilisez l’une des options de déploiement standard.

Pour plus d’informations, consultez Déployer des modèles de base sur des points de terminaison pour l’inférence.

Conditions préalables : Se connecter au modèle

Pour que le flux d’invite utilise votre modèle déployé, vous devez vous y connecter. Il existe deux façons de se connecter.

Endpoint connections

Une fois que votre flux est associé à un espace de travail Azure Machine Learning ou Microsoft Foundry, l’outil Open Model LLM peut utiliser les points de terminaison de cet espace de travail.

  • Utilisez des espaces de travail Azure Machine Learning ou Foundry : si vous utilisez le flux d'invite dans l'un des espaces de travail basés sur des pages web, les points de terminaison en ligne disponibles sur cet espace de travail automatiquement.

  • Utilisation de VS Code ou de code en premier : si vous utilisez le flux d’invite dans VS Code ou l’une des offres Code First, vous devez vous connecter à l’espace de travail. L’outil Open Model LLM utilise le client Azure.identity DefaultAzureCredential pour l’autorisation. L’une des façons consiste à définir des valeurs d’informations d’identification d’environnement.

Custom connections

L’outil Open Model LLM utilise CustomConnection. Le flux d’invite prend en charge deux types de connexions :

  • ConnexionsWorkspace : connexions stockées en tant que secrets sur un espace de travail Azure Machine Learning. Bien que ces connexions puissent être utilisées, dans de nombreux endroits, elles sont généralement créées et conservées dans l’interface utilisateur de Studio. Pour savoir comment créer une connexion personnalisée dans l’interface utilisateur de Studio, découvrez comment créer une connexion personnalisée.

  • Connexions locales : connexions stockées localement sur votre ordinateur. Ces connexions ne sont pas disponibles dans l’expérience utilisateur studio, mais peuvent être utilisées avec l’extension VS Code. Pour savoir comment créer une connexion personnalisée locale, découvrez comment créer une connexion locale.

Les clés requises à définir sont les suivantes :

  • endpoint_url
    • Cette valeur se trouve sur le point de terminaison d’inférence créé précédemment.
  • endpoint_api_key
    • Veillez à la définir comme valeur secrète.
    • Cette valeur se trouve sur le point de terminaison d’inférence créé précédemment.
  • model_family
    • Valeurs prises en charge : LLAMA, DOLLY, GPT2 ou FALCON
    • Cette valeur dépend du type de déploiement que vous ciblez.

Exécution de l’outil : Entrées

L’outil Open Model LLM a de nombreux paramètres, dont certains sont requis. Consultez le tableau suivant pour plus d’informations, vous pouvez faire correspondre ces paramètres à la capture d’écran précédente pour plus de clarté visuelle.

Name Type Description Required
api string Mode API qui dépend du modèle utilisé et du scénario sélectionné. Valeurs prises en charge : (Achèvement | Conversation) Yes
endpoint_name string Nom d’un point de terminaison d’inférence en ligne avec un modèle pris en charge déployé sur celui-ci. Prend la priorité sur la connexion. Yes
temperature float Caractère aléatoire du texte généré. La valeur par défaut est 1. No
max_new_tokens integer Nombre maximal de jetons à générer dans la saisie semi-automatique. La valeur par défaut est 500. No
top_p float Probabilité d’utiliser le premier choix parmi les jetons générés. La valeur par défaut est 1. No
model_kwargs dictionary Cette entrée est utilisée pour fournir une configuration spécifique au modèle utilisé. Par exemple, le modèle Llama-02 peut utiliser {"temperature » :0.4}. Par défaut: {} No
deployment_name string Nom du déploiement à cibler sur le point de terminaison d’inférence en ligne. Si aucune valeur n’est passée, les paramètres de trafic de l’équilibreur de charge inférence sont utilisés. No
prompt string Invite de texte utilisée par le modèle de langage pour générer sa réponse. Yes

Outputs

API Return Type Description
Completion string Texte d’une saisie semi-automatique prédite
Chat string Texte d’une réponse dans la conversation

Déploiement sur un point de terminaison en ligne

Lorsque vous déployez un flux contenant l’outil Open Model LLM sur un point de terminaison en ligne, il existe une étape supplémentaire pour configurer des autorisations. Pendant le déploiement via les pages web, il existe un choix entre les types d’identité attribués par le système et attribués par l’utilisateur. Dans les deux cas, à l’aide du portail Azure (ou d’une fonctionnalité similaire), ajoutez le rôle de fonction de travail « Lecteur » à l’identité sur l’espace de travail Azure Machine Learning ou le projet Ai Studio, qui héberge le point de terminaison. Le déploiement de flux d’invite peut avoir besoin d’être actualisé.