Analyser les résultats de l’évaluation avec l’analyse de regroupement (aperçu)

Important

Les éléments indiqués comme (aperçu) dans cet article sont en aperçu public. Cette préversion est fournie sans contrat de niveau de service et nous ne la recommandons pas pour les environnements de production. Certaines fonctionnalités peuvent ne pas être prises en charge ou avoir des fonctionnalités contraintes. Pour plus d’informations, consultez Conditions d'utilisation supplémentaires pour les versions préliminaires de Microsoft Azure.

Après avoir exécuté une ou plusieurs exécutions d’évaluation, vous pouvez générer une analyse de cluster d’évaluation pour comprendre vos résultats d’évaluation. Cette analyse offre un moyen intuitif d’identifier les principaux modèles et erreurs dans vos exécutions d’évaluation, ainsi que les étapes suivantes recommandées pour améliorer les scores de l’évaluateur.

Cet article explique comment générer et interagir avec une analyse de cluster d’évaluation.

Conditions préalables

Un projet Foundry.
Une ou plusieurs exécutions d’évaluation terminées.
Modèle déployé dans votre projet à utiliser pour la génération d’analyse de cluster. Pour plus d’informations, consultez Créer des déploiements de modèles.

Générer une analyse de cluster d’évaluation

Dans la page des détails de l’évaluation, sélectionnez une ou plusieurs exécutions d’évaluation terminées.
Sélectionnez l’analyse du cluster. Une fenêtre d’installation s’ouvre et affiche l’utilisation estimée du temps et du jeton en fonction du nombre d’exemples dans les exécutions sélectionnées.
Sélectionnez un modèle dans la liste déroulante à utiliser pour générer l’analyse.
Sélectionnez Générer. L’analyse est générée et la carte de cluster s’ouvre automatiquement.

Important

Le résultat de l’analyse n’est pas stocké. Si vous quittez la page, le résultat est perdu. Pour conserver une copie, téléchargez l’analyse avant de naviguer.

Afficher l’analyse du cluster

L’analyse du cluster fournit une visualisation intuitive des performances en regroupant des exemples de résultats d’évaluation avec des problèmes ou des modèles de réponse similaires. Il vous aide à identifier rapidement les types d’échecs récurrents, à comprendre la distribution entre les catégories d’erreurs et à hiérarchiser les domaines d’amélioration.

En haut de la vue, les statistiques récapitulatives de l’exécution de l’évaluation s’affichent :

Nombre total d’échantillons : nombre total de réponses évaluées (par exemple, 48).
Clusters : nombre de clusters identifiés automatiquement (par exemple, 2).
Réussite/échec : répartition des échantillons réussis et problématiques.
Score moyen : score de qualité moyen global pour l’exécution.

Note

Pointez sur un point ou une étiquette de cluster pour afficher des informations détaillées, notamment des exemples de réponses et des commentaires de l’évaluateur. Sélectionnez cette option pour ouvrir le volet de détails.

Visualisation

Chaque point représente un exemple de votre jeu de données d’évaluation. Les points sont regroupés par similarité sémantique, à l’aide d’un clustering basé sur l’incorporation de sorties de modèle et de signaux de commentaires.

Couleur : indique l’affectation du cluster (par exemple, réponse finale insuffisante ou réponse incorrecte).
Position : Les exemples qui sont plus proches les uns des autres partagent des caractéristiques ou des problèmes similaires.

Panneau de détails

Grappe

La sélection d’un cluster ouvre un panneau latéral qui inclut :

Cluster sélectionné : nom du groupe de problèmes de niveau supérieur.
Nombre d’entrées : nombre total d’échantillons dans ce cluster.
Sous-cluster : répartition des sous-catégories associées.
Description : résumé de diagnostic généré automatiquement expliquant la cause ou le modèle caractéristique probable
Recommandations : Suggestions d’étapes suivantes pour l’atténuation ou l’amélioration de l’agent.

Sous-cluster

La sélection d’un sous-cluster ouvre un panneau latéral qui inclut :

Cluster : indique le cluster parent auquel appartient ce sous-cluster (par exemple, inadequate_final_answer).
Sous-cluster sélectionné : sous-ensemble spécifique examiné (par exemple, invalid_or_missing_api_key).
Nombre d’entrées : nombre d’échantillons individuels regroupés sous ce sous-cluster.
Onglets
- Analyse : fournit des statistiques récapitulatives, des moyennes de score et des insights qualitatifs (le cas échéant).
- Entrées : répertorie chaque exemple (ID d’entrée) dans le sous-cluster avec leurs scores individuels tels que la fluidité, l'ancrage ou la précision.

ID d’entrée

La sélection d'un point / identifiant d'entrée ouvre un volet latéral qui comprend :

Hiérarchie de cluster
- Affiche le chemin complet où cette entrée est située : Cluster → Sous-cluster → Identifiant de l'entrée. Par exemple, inadequate_final_answer → invalid_or_missing_api_key → Identifiant de l'entrée : 17-fluency.
Onglets
Conversation : affiche l’interaction de texte intégral pour l’exemple sélectionné :
- Résumé du contexte (le cas échéant) : contexte ou contexte précédent utilisé dans l’évaluation.
- Requête : l’invite de modèle ou la question de l’utilisateur (par exemple, « Comment envoyer une demande de remboursement FSA ? »).
- Réponse : sortie générée par le modèle pour cette requête.
Métadonnées : contient des informations d’évaluation supplémentaires telles que les scores, les évaluateurs, les horodatages, les ID d’agent et les ID de trace.

Le panneau de filtre sur le côté droit de la vue d’analyse du cluster vous permet de personnaliser la façon dont les clusters sont affichés pour l’inspection ciblée.

Couleur par
- Permet d’ajuster la façon dont les exemples sont codés en couleur sur la visualisation.
- Les options incluent généralement :
  - Cluster : couleur des échantillons par catégorie principale de problème.
  - Sous-cluster : échantillons de couleurs par sous-catégories plus détaillées au sein de chaque cluster.
  - Ou résultat de l’évaluation, type d’évaluation, score et ID d’agent.

Filtrage avancé
- Fournit des outils pour concentrer la visualisation sur des sous-ensembles de données spécifiques.
- Vous pouvez définir des filtres en fonction des métadonnées ou des attributs d’évaluation.
  - Sélectionner un paramètre : choisissez le champ sur lequel filtrer (par exemple, score, type d’évaluateur, horodatage).
  - Equal / Contains / Not equal : définissez la condition de filtrage.
  - Sélectionnez Valeur : choisissez ou entrez la valeur spécifique à mettre en correspondance.
  - Ajouter un filtre : appliquez la condition pour mettre à jour la vue dynamiquement.

Télécharger l’analyse

Pour afficher l’analyse hors connexion, sélectionnez télécharger pour obtenir une copie de l’analyse au format CSV et l’afficher dans d’autres applications.

Note

Le résultat de l’analyse n’est pas stocké. Si vous quittez la page, le résultat de l’analyse est perdu.

Étapes suivantes

Utilisez les insights de l’analyse de cluster pour :

Affiner les invites : mettez à jour les instructions de votre agent afin de traiter les schémas de pannes récurrents identifiés dans les groupes.
Réentraînement ou réglage précis : utilisez les catégories d’échec identifiées comme signal pour affiner la curation des données.
Réévaluer : après avoir apporté des modifications, exécutez une nouvelle évaluation et générez une nouvelle analyse de cluster pour comparer les résultats. Consultez Exécuter des évaluations à partir du Kit de développement logiciel (SDK).

Dépannage

Symptôme	Cause probable	Correction
Le bouton Analyse du cluster n’est pas disponible	Aucune exécution d’évaluation terminée n’est sélectionnée	Sélectionnez au moins une exécution d’évaluation terminée sur la page des détails de l’évaluation avant de sélectionner l’analyse du cluster.
Aucun modèle n’apparaît dans la fenêtre de génération	Aucun modèle n’est déployé dans le projet	Déployez un modèle dans votre projet. Consultez Créer des déploiements de modèles.
La génération d’analyse échoue ou expire	Volume de données trop important ou limitation de service	Réduisez le nombre d’exécutions d’évaluation sélectionnées ou réessayez ultérieurement.
L’analyse disparaît après être parti	Les résultats ne sont pas persistants	Réexécutez l’analyse du cluster et téléchargez les résultats avant de vous éloigner.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-30