Analyser les résultats de l’évaluation avec l’analyse de regroupement (aperçu)

Important

Les éléments indiqués comme (aperçu) dans cet article sont en aperçu public. Cette préversion est fournie sans contrat de niveau de service et nous ne la recommandons pas pour les environnements de production. Certaines fonctionnalités peuvent ne pas être prises en charge ou avoir des fonctionnalités contraintes. Pour plus d’informations, consultez Conditions d'utilisation supplémentaires pour les versions préliminaires de Microsoft Azure.

Après avoir exécuté une ou plusieurs exécutions d’évaluation, vous pouvez générer une analyse de cluster d’évaluation pour comprendre vos résultats d’évaluation. Cette analyse offre un moyen intuitif d’identifier les principaux modèles et erreurs dans vos exécutions d’évaluation, ainsi que les étapes suivantes recommandées pour améliorer les scores de l’évaluateur.

Cet article explique comment générer et interagir avec une analyse de cluster d’évaluation.

Conditions préalables

Générer une analyse de cluster d’évaluation

  1. Dans la page des détails de l’évaluation, sélectionnez une ou plusieurs exécutions d’évaluation terminées.
  2. Sélectionnez l’analyse du cluster. Une fenêtre d’installation s’ouvre et affiche l’utilisation estimée du temps et du jeton en fonction du nombre d’exemples dans les exécutions sélectionnées.
  3. Sélectionnez un modèle dans la liste déroulante à utiliser pour générer l’analyse.
  4. Sélectionnez Générer. L’analyse est générée et la carte de cluster s’ouvre automatiquement.

Capture d’écran de la fenêtre de configuration de l'analyse de cluster montrant la liste déroulante de sélection de modèle et l'estimation de l'utilisation des jetons.

Important

Le résultat de l’analyse n’est pas stocké. Si vous quittez la page, le résultat est perdu. Pour conserver une copie, téléchargez l’analyse avant de naviguer.

Afficher l’analyse du cluster

L’analyse du cluster fournit une visualisation intuitive des performances en regroupant des exemples de résultats d’évaluation avec des problèmes ou des modèles de réponse similaires. Il vous aide à identifier rapidement les types d’échecs récurrents, à comprendre la distribution entre les catégories d’erreurs et à hiérarchiser les domaines d’amélioration.

Capture d’écran de la page d’analyse du cluster.

En haut de la vue, les statistiques récapitulatives de l’exécution de l’évaluation s’affichent :

  • Nombre total d’échantillons : nombre total de réponses évaluées (par exemple, 48).
  • Clusters : nombre de clusters identifiés automatiquement (par exemple, 2).
  • Réussite/échec : répartition des échantillons réussis et problématiques.
  • Score moyen : score de qualité moyen global pour l’exécution.

Note

Pointez sur un point ou une étiquette de cluster pour afficher des informations détaillées, notamment des exemples de réponses et des commentaires de l’évaluateur. Sélectionnez cette option pour ouvrir le volet de détails.

Visualisation

Chaque point représente un exemple de votre jeu de données d’évaluation. Les points sont regroupés par similarité sémantique, à l’aide d’un clustering basé sur l’incorporation de sorties de modèle et de signaux de commentaires.

  • Couleur : indique l’affectation du cluster (par exemple, réponse finale insuffisante ou réponse incorrecte).
  • Position : Les exemples qui sont plus proches les uns des autres partagent des caractéristiques ou des problèmes similaires.

Panneau de détails

Grappe

La sélection d’un cluster ouvre un panneau latéral qui inclut :

  • Cluster sélectionné : nom du groupe de problèmes de niveau supérieur.
  • Nombre d’entrées : nombre total d’échantillons dans ce cluster.
  • Sous-cluster : répartition des sous-catégories associées.
  • Description : résumé de diagnostic généré automatiquement expliquant la cause ou le modèle caractéristique probable
  • Recommandations : Suggestions d’étapes suivantes pour l’atténuation ou l’amélioration de l’agent.

Capture d’écran d’un cluster sélectionné avec le volet latéral ouvert.

Sous-cluster

La sélection d’un sous-cluster ouvre un panneau latéral qui inclut :

  • Cluster : indique le cluster parent auquel appartient ce sous-cluster (par exemple, inadequate_final_answer).
  • Sous-cluster sélectionné : sous-ensemble spécifique examiné (par exemple, invalid_or_missing_api_key).
  • Nombre d’entrées : nombre d’échantillons individuels regroupés sous ce sous-cluster.
  • Onglets
    • Analyse : fournit des statistiques récapitulatives, des moyennes de score et des insights qualitatifs (le cas échéant).
    • Entrées : répertorie chaque exemple (ID d’entrée) dans le sous-cluster avec leurs scores individuels tels que la fluidité, l'ancrage ou la précision.

Capture d’écran d’un sous-cluster sélectionné avec le volet latéral ouvert.

ID d’entrée

La sélection d'un point / identifiant d'entrée ouvre un volet latéral qui comprend :

  • Hiérarchie de cluster
    • Affiche le chemin complet où cette entrée est située : Cluster → Sous-cluster → Identifiant de l'entrée. Par exemple, inadequate_final_answer → invalid_or_missing_api_key → Identifiant de l'entrée : 17-fluency.
  • Onglets
  • Conversation : affiche l’interaction de texte intégral pour l’exemple sélectionné :
    • Résumé du contexte (le cas échéant) : contexte ou contexte précédent utilisé dans l’évaluation.
    • Requête : l’invite de modèle ou la question de l’utilisateur (par exemple, « Comment envoyer une demande de remboursement FSA ? »).
    • Réponse : sortie générée par le modèle pour cette requête.
  • Métadonnées : contient des informations d’évaluation supplémentaires telles que les scores, les évaluateurs, les horodatages, les ID d’agent et les ID de trace.

Capture d’écran de la sélection de l’ID d’entrée avec le volet latéral ouvert.

Panneau de filtre

Le panneau de filtre sur le côté droit de la vue d’analyse du cluster vous permet de personnaliser la façon dont les clusters sont affichés pour l’inspection ciblée.

  • Couleur par
    • Permet d’ajuster la façon dont les exemples sont codés en couleur sur la visualisation.
    • Les options incluent généralement :
      • Cluster : couleur des échantillons par catégorie principale de problème.
      • Sous-cluster : échantillons de couleurs par sous-catégories plus détaillées au sein de chaque cluster.
      • Ou résultat de l’évaluation, type d’évaluation, score et ID d’agent.

Capture d’écran du panneau de filtre de l’analyse du cluster.

  • Filtrage avancé
    • Fournit des outils pour concentrer la visualisation sur des sous-ensembles de données spécifiques.
    • Vous pouvez définir des filtres en fonction des métadonnées ou des attributs d’évaluation.
      • Sélectionner un paramètre : choisissez le champ sur lequel filtrer (par exemple, score, type d’évaluateur, horodatage).
      • Equal / Contains / Not equal : définissez la condition de filtrage.
      • Sélectionnez Valeur : choisissez ou entrez la valeur spécifique à mettre en correspondance.
      • Ajouter un filtre : appliquez la condition pour mettre à jour la vue dynamiquement.

Capture d’écran du filtrage avancé de l’analyse du cluster.

Télécharger l’analyse

Pour afficher l’analyse hors connexion, sélectionnez télécharger pour obtenir une copie de l’analyse au format CSV et l’afficher dans d’autres applications.

Note

Le résultat de l’analyse n’est pas stocké. Si vous quittez la page, le résultat de l’analyse est perdu.

Étapes suivantes

Utilisez les insights de l’analyse de cluster pour :

  • Affiner les invites : mettez à jour les instructions de votre agent afin de traiter les schémas de pannes récurrents identifiés dans les groupes.
  • Réentraînement ou réglage précis : utilisez les catégories d’échec identifiées comme signal pour affiner la curation des données.
  • Réévaluer : après avoir apporté des modifications, exécutez une nouvelle évaluation et générez une nouvelle analyse de cluster pour comparer les résultats. Consultez Exécuter des évaluations à partir du Kit de développement logiciel (SDK).

Dépannage

Symptôme Cause probable Correction
Le bouton Analyse du cluster n’est pas disponible Aucune exécution d’évaluation terminée n’est sélectionnée Sélectionnez au moins une exécution d’évaluation terminée sur la page des détails de l’évaluation avant de sélectionner l’analyse du cluster.
Aucun modèle n’apparaît dans la fenêtre de génération Aucun modèle n’est déployé dans le projet Déployez un modèle dans votre projet. Consultez Créer des déploiements de modèles.
La génération d’analyse échoue ou expire Volume de données trop important ou limitation de service Réduisez le nombre d’exécutions d’évaluation sélectionnées ou réessayez ultérieurement.
L’analyse disparaît après être parti Les résultats ne sont pas persistants Réexécutez l’analyse du cluster et téléchargez les résultats avant de vous éloigner.