Exécuter des évaluations à partir du portail Microsoft Foundry

Important

Les éléments indiqués comme (aperçu) dans cet article sont en aperçu public. Cette préversion est fournie sans contrat de niveau de service et nous ne la recommandons pas pour les environnements de production. Certaines fonctionnalités peuvent ne pas être prises en charge ou avoir des fonctionnalités contraintes. Pour plus d’informations, consultez Conditions d'utilisation supplémentaires pour les versions préliminaires de Microsoft Azure.

Évaluez les performances et la sécurité de vos modèles et agents IA génératifs en les exécutant sur un jeu de données de test. Pendant une évaluation, le modèle ou l’agent est testé avec le jeu de données et ses performances sont mesurées à l’aide d’évaluateurs intégrés et personnalisés.

Utilisez le portail Foundry pour exécuter des évaluations, afficher les résultats et analyser les métriques.

Conditions préalables

Jeu de données de test au format CSV ou JSON Lines (JSONL), ou modèle ou agent à évaluer.
Connexion OpenAI Azure avec un modèle GPT déployé qui prend en charge l’achèvement de conversation (par exemple, gpt-5-mini). Obligatoire uniquement pour les évaluations de qualité assistées par l’IA.
rôle d'utilisateur Azure IA sur le projet Foundry. Pour plus d’informations, consultez le contrôle d’accès basé sur les rôles pour Microsoft Foundry.

Créer une évaluation

Vous pouvez démarrer une évaluation à partir de plusieurs emplacements dans le portail Foundry :

Page d’évaluation : dans le volet gauche, sélectionnez Création d’évaluation>.
Page Modèles : Accédez à votre modèle, sélectionnez l’onglet Évaluation , puis sélectionnez Créer.
Page Agents : Accédez à votre agent, sélectionnez l’onglet Évaluation , puis sélectionnez Créer.
Agent Playground : accédez à votre agent, sélectionnez l’onglet Playground, puis sélectionnez l’onglet Métriques et exécutez l'évaluation complète.

Cible d’évaluation

Lorsque vous créez une évaluation, vous choisissez d’abord la cible d’évaluation. La cible détermine sur quoi l'évaluation s'applique.

Agent : évalue la sortie générée par votre agent sélectionné et l’entrée définie par l’utilisateur. Fonctionne pour les agents réactifs et agents hébergés.
Modèle : évalue la sortie générée par votre modèle sélectionné et l’invite définie par l’utilisateur.
Jeu de données : évalue les sorties préexistantes d’un modèle ou d’un agent à partir d’un jeu de données de test.

Sélectionner ou créer un jeu de données

Fournissez un jeu de données pour l’évaluation. Vous pouvez charger votre propre jeu de données ou en générer synthétiquement un.

Ajouter un nouveau jeu de données : chargez des fichiers à partir de votre stockage local. Seuls les formats de fichiers CSV et JSONL sont pris en charge. Un aperçu de vos données de test s’affiche dans le volet droit.
Génération de jeu de données synthétique : générez un jeu de données synthétique lorsque vous n’avez pas de données de test. Spécifiez la ressource, le nombre de lignes et une invite qui décrit les données à générer. Vous pouvez également charger des fichiers pour améliorer la pertinence.

Note

La génération de données synthétiques nécessite un modèle avec la fonctionnalité API Réponses. Pour plus d’informations sur la disponibilité, consultez la disponibilité de la région de l’API Réponses.

Contenus multimodaux (aperçu)

Toutes les cibles d’évaluation - Agent, Modèle, Jeu de données et Traces - prennent en charge le contenu image et audio. Chaque type de contenu utilise un schéma JSONL spécifique :

Contenu de l’image :

image_url: Image en tant qu’URI de données (par exemple) data:image/png;base64,...ou URL accessible publiquement.
caption: description textuelle du contenu de l’image.

{"image_url": "data:image/png;base64,iVBOR...", "caption": "A red to blue color gradient"}

Contenu audio :

audio_data: l’audio en tant qu’URI de données avec des données WAV encodées en base64 (par exemple). data:audio/wav;base64,...
expected: description textuelle du contenu audio attendu.

Note

Seul le format audio WAV est actuellement pris en charge.

{"audio_data": "data:audio/wav;base64,UklGR...", "expected": "A short beep tone at 440 Hz"}

Les jeux de données peuvent également utiliser le format de conversation de message, où les données audio et image sont incorporées dans une seule colonne de message en tant qu’URI de données ou URL accessibles publiquement.

L’exemple suivant montre une colonne de jeu de données de conversation avec du contenu image et audio incorporé :

[
  {
    "role": "system",
    "content": "..."
  },
  {
    "role": "user",
    "content": [
      {
        "type": "text",
        "text": "What are in these images?"
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "https://my-website.com/path/image.png"
        }
      },
      {
        "type": "image_url",
        "image_url": {
          "url": "data:image/png;base64,iVBORw0KGgo..."
        }
      }
    ]
  },
  { 
    "role": "assistant", 
    "content": "..." 
  }, 
  { 
    "role": "user", 
    "content": [
      {         "type": "text", 
        "text": "Tell me the tones for the voices?" 
      },
      { 
        "type": "input_audio", 
        "input_audio": {
          "data": "https://my-website.com/path/voice.wav", 
          "format": "wav" 
        }
      },
      { 
        "type": "input_audio", 
        "input_audio": { 
          "data": "data:audio/wav;base64,UklGRigAAA...", 
          "format": "wav" 
        } 
      }
    ] 
  } 
]

Vous pouvez afficher un aperçu des images et lire des clips audio directement dans le flux de création d’évaluation et dans la vue des résultats de l’évaluation.

Configurer des critères de test

Sélectionnez les évaluateurs à utiliser pour votre évaluation. Microsoft Foundry fournit trois catégories d’évaluateurs intégrés :

Évaluateurs d’agent : évaluez la façon dont les agents gèrent efficacement les tâches, les outils et l’intention de l’utilisateur.
Évaluateurs de qualité : mesure la qualité globale des réponses générées. Inclut les métriques assistées par l’IA (nécessitent un déploiement de modèle en tant que juge) et les métriques NLP (mathématiques, souvent nécessitant des données de vérité au sol).
Évaluateurs de sécurité : identifiez les risques potentiels liés au contenu et à la sécurité dans la sortie générée. Les évaluateurs de sécurité ne nécessitent pas de déploiement de modèle.

Vous pouvez également créer vos propres évaluateurs personnalisés et les sélectionner lors de la configuration des critères de test.

Pour obtenir la liste complète des évaluateurs disponibles, consultez les évaluateurs intégrés.

Mappage des données

Différents évaluateurs nécessitent des entrées de données différentes. Le portail mappe automatiquement vos champs de jeu de données aux champs attendus par chaque évaluateur. Vérifiez le mappage et réaffectez les champs si nécessaire.

Si le portail ne peut pas mapper automatiquement un champ, le champ s’affiche comme non attribué. Sélectionnez la liste déroulante de champs pour affecter manuellement une colonne à partir de votre jeu de données. Les champs obligatoires sont marqués avec un astérisque (*) : les évaluateurs échouent si les champs obligatoires ne sont pas attribués.

Pour connaître les exigences de champ par évaluateur, consultez les pages des évaluateurs respectifs dans la section évaluateurs intégrés.

Passer en revue et soumettre

Une fois la configuration terminée, fournissez un nom pour votre évaluation, passez en revue vos paramètres, puis sélectionnez Envoyer.

Une fois que vous avez soumis, l’évaluation démarre. Les évaluations se terminent généralement en quelques minutes, en fonction de la taille du jeu de données. Pour afficher les résultats, sélectionnez le nom de l’évaluation dans la page Évaluation ou affichez les résultats de l’évaluation.

En savoir plus sur l’évaluation de vos modèles et agents d’IA génératives :

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-05-01