Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Important
Les éléments indiqués comme (aperçu) dans cet article sont en aperçu public. Cette préversion est fournie sans contrat de niveau de service et nous ne la recommandons pas pour les environnements de production. Certaines fonctionnalités peuvent ne pas être prises en charge ou avoir des fonctionnalités contraintes. Pour plus d’informations, consultez Conditions d'utilisation supplémentaires pour les versions préliminaires de Microsoft Azure.
Après avoir exécuté une ou plusieurs exécutions d’évaluation, vous pouvez générer une analyse de cluster d’évaluation pour comprendre vos résultats d’évaluation. Cette analyse offre un moyen intuitif d’identifier les principaux modèles et erreurs dans vos exécutions d’évaluation, ainsi que les étapes suivantes recommandées pour améliorer les scores de l’évaluateur.
Cet article explique comment générer et interagir avec une analyse de cluster d’évaluation.
Conditions préalables
- Un projet Foundry.
- Une ou plusieurs exécutions d’évaluation terminées.
- Modèle déployé dans votre projet à utiliser pour la génération d’analyse de cluster. Pour plus d’informations, consultez Créer des déploiements de modèles.
Générer une analyse de cluster d’évaluation
- Dans la page des détails de l’évaluation, sélectionnez une ou plusieurs exécutions d’évaluation terminées.
- Sélectionnez l’analyse du cluster. Une fenêtre d’installation s’ouvre et affiche l’utilisation estimée du temps et du jeton en fonction du nombre d’exemples dans les exécutions sélectionnées.
- Sélectionnez un modèle dans la liste déroulante à utiliser pour générer l’analyse.
- Sélectionnez Générer. L’analyse est générée et la carte de cluster s’ouvre automatiquement.
Important
Le résultat de l’analyse n’est pas stocké. Si vous quittez la page, le résultat est perdu. Pour conserver une copie, téléchargez l’analyse avant de naviguer.
Afficher l’analyse du cluster
L’analyse du cluster fournit une visualisation intuitive des performances en regroupant des exemples de résultats d’évaluation avec des problèmes ou des modèles de réponse similaires. Il vous aide à identifier rapidement les types d’échecs récurrents, à comprendre la distribution entre les catégories d’erreurs et à hiérarchiser les domaines d’amélioration.
En haut de la vue, les statistiques récapitulatives de l’exécution de l’évaluation s’affichent :
- Nombre total d’échantillons : nombre total de réponses évaluées (par exemple, 48).
- Clusters : nombre de clusters identifiés automatiquement (par exemple, 2).
- Réussite/échec : répartition des échantillons réussis et problématiques.
- Score moyen : score de qualité moyen global pour l’exécution.
Note
Pointez sur un point ou une étiquette de cluster pour afficher des informations détaillées, notamment des exemples de réponses et des commentaires de l’évaluateur. Sélectionnez cette option pour ouvrir le volet de détails.
Visualisation
Chaque point représente un exemple de votre jeu de données d’évaluation. Les points sont regroupés par similarité sémantique, à l’aide d’un clustering basé sur l’incorporation de sorties de modèle et de signaux de commentaires.
- Couleur : indique l’affectation du cluster (par exemple, réponse finale insuffisante ou réponse incorrecte).
- Position : Les exemples qui sont plus proches les uns des autres partagent des caractéristiques ou des problèmes similaires.
Panneau de détails
Grappe
La sélection d’un cluster ouvre un panneau latéral qui inclut :
- Cluster sélectionné : nom du groupe de problèmes de niveau supérieur.
- Nombre d’entrées : nombre total d’échantillons dans ce cluster.
- Sous-cluster : répartition des sous-catégories associées.
- Description : résumé de diagnostic généré automatiquement expliquant la cause ou le modèle caractéristique probable
- Recommandations : Suggestions d’étapes suivantes pour l’atténuation ou l’amélioration de l’agent.
Sous-cluster
La sélection d’un sous-cluster ouvre un panneau latéral qui inclut :
- Cluster : indique le cluster parent auquel appartient ce sous-cluster (par exemple, inadequate_final_answer).
- Sous-cluster sélectionné : sous-ensemble spécifique examiné (par exemple, invalid_or_missing_api_key).
- Nombre d’entrées : nombre d’échantillons individuels regroupés sous ce sous-cluster.
- Onglets
- Analyse : fournit des statistiques récapitulatives, des moyennes de score et des insights qualitatifs (le cas échéant).
- Entrées : répertorie chaque exemple (ID d’entrée) dans le sous-cluster avec leurs scores individuels tels que la fluidité, l'ancrage ou la précision.
ID d’entrée
La sélection d'un point / identifiant d'entrée ouvre un volet latéral qui comprend :
- Hiérarchie de cluster
- Affiche le chemin complet où cette entrée est située : Cluster → Sous-cluster → Identifiant de l'entrée. Par exemple, inadequate_final_answer → invalid_or_missing_api_key → Identifiant de l'entrée : 17-fluency.
- Onglets
- Conversation : affiche l’interaction de texte intégral pour l’exemple sélectionné :
- Résumé du contexte (le cas échéant) : contexte ou contexte précédent utilisé dans l’évaluation.
- Requête : l’invite de modèle ou la question de l’utilisateur (par exemple, « Comment envoyer une demande de remboursement FSA ? »).
- Réponse : sortie générée par le modèle pour cette requête.
- Métadonnées : contient des informations d’évaluation supplémentaires telles que les scores, les évaluateurs, les horodatages, les ID d’agent et les ID de trace.
Panneau de filtre
Le panneau de filtre sur le côté droit de la vue d’analyse du cluster vous permet de personnaliser la façon dont les clusters sont affichés pour l’inspection ciblée.
- Couleur par
- Permet d’ajuster la façon dont les exemples sont codés en couleur sur la visualisation.
- Les options incluent généralement :
- Cluster : couleur des échantillons par catégorie principale de problème.
- Sous-cluster : échantillons de couleurs par sous-catégories plus détaillées au sein de chaque cluster.
- Ou résultat de l’évaluation, type d’évaluation, score et ID d’agent.
- Filtrage avancé
- Fournit des outils pour concentrer la visualisation sur des sous-ensembles de données spécifiques.
- Vous pouvez définir des filtres en fonction des métadonnées ou des attributs d’évaluation.
- Sélectionner un paramètre : choisissez le champ sur lequel filtrer (par exemple, score, type d’évaluateur, horodatage).
- Equal / Contains / Not equal : définissez la condition de filtrage.
- Sélectionnez Valeur : choisissez ou entrez la valeur spécifique à mettre en correspondance.
- Ajouter un filtre : appliquez la condition pour mettre à jour la vue dynamiquement.
Télécharger l’analyse
Pour afficher l’analyse hors connexion, sélectionnez télécharger pour obtenir une copie de l’analyse au format CSV et l’afficher dans d’autres applications.
Note
Le résultat de l’analyse n’est pas stocké. Si vous quittez la page, le résultat de l’analyse est perdu.
Étapes suivantes
Utilisez les insights de l’analyse de cluster pour :
- Affiner les invites : mettez à jour les instructions de votre agent afin de traiter les schémas de pannes récurrents identifiés dans les groupes.
- Réentraînement ou réglage précis : utilisez les catégories d’échec identifiées comme signal pour affiner la curation des données.
- Réévaluer : après avoir apporté des modifications, exécutez une nouvelle évaluation et générez une nouvelle analyse de cluster pour comparer les résultats. Consultez Exécuter des évaluations à partir du Kit de développement logiciel (SDK).
Dépannage
| Symptôme | Cause probable | Correction |
|---|---|---|
| Le bouton Analyse du cluster n’est pas disponible | Aucune exécution d’évaluation terminée n’est sélectionnée | Sélectionnez au moins une exécution d’évaluation terminée sur la page des détails de l’évaluation avant de sélectionner l’analyse du cluster. |
| Aucun modèle n’apparaît dans la fenêtre de génération | Aucun modèle n’est déployé dans le projet | Déployez un modèle dans votre projet. Consultez Créer des déploiements de modèles. |
| La génération d’analyse échoue ou expire | Volume de données trop important ou limitation de service | Réduisez le nombre d’exécutions d’évaluation sélectionnées ou réessayez ultérieurement. |
| L’analyse disparaît après être parti | Les résultats ne sont pas persistants | Réexécutez l’analyse du cluster et téléchargez les résultats avant de vous éloigner. |