Dériver des signaux de qualité pour l’évaluation de l’agent Copilot

Les signaux de qualité fournissent un moyen structuré de comprendre pourquoi les réponses de l’agent réussissent ou échouent. Ils aident les équipes à regrouper les résultats des évaluations en catégories significatives, à hiérarchiser les améliorations et à suivre la progression au fil du temps.

Cet article explique comment dériver des signaux de qualité à partir des résultats de l’évaluation pour diagnostiquer les problèmes, identifier des modèles et améliorer les performances de l’agent Copilot.

En utilisant des signaux de qualité, les équipes peuvent :

Identifier les modèles d’échecs récurrents
Hiérarchiser les améliorations en fonction de l’impact
Suivre les performances entre les itérations
Communiquer clairement les résultats aux parties prenantes

Que sont les signaux de qualité ?

Les signaux de qualité sont des catégories qui représentent des modèles dans les résultats de l’évaluation. Ils proviennent d’un comportement observé plutôt que de règles prédéfinies.

Les assertions et les signaux de qualité fonctionnent ensemble dans un workflow d’évaluation :

Les assertions déterminent si une réponse réussit ou échoue.
Les signaux de qualité regroupent les résultats d’assertion dans des modèles de niveau supérieur.

Aspect	Affirmations	Signaux de qualité
Level	Spécifique et concret	Abstrait et catégorique
Objectif	Déterminer la réussite ou l’échec	Modèles de diagnostic
Quantité	Plusieurs par cas de test	Peu par agent
Origin	Défini avant le test	Dérivé des résultats
Exemple	Contient « 15 jours »	Précision de la stratégie

Une fois que vous avez défini des assertions, dérivez des signaux de qualité à partir des résultats d’assertion et utilisez ces signaux pour suivre les performances entre les scénarios.

Signaux de qualité courants

Utilisez les signaux de qualité courants suivants lorsque vous évaluez les agents Copilot :

Précision de la stratégie : mesure si les réponses s’alignent sur les sources de connaissances faisant autorité
Attribution de source : mesure si les réponses identifient clairement les sources d’informations
Personnalisation : mesure si les réponses utilisent le contexte utilisateur approprié
Précision de l’outil : mesure si les appels d’outils sont exécutés correctement
Gestion des réponses de l’outil : mesure si l’agent interprète correctement la sortie de l’outil
Pertinence de l’escalade : mesure si les demandes sont acheminées vers le support humain si nécessaire
Protection de la confidentialité : mesure si les informations sensibles sont protégées
Activation de l’action : mesure si les réponses fournissent des étapes suivantes claires

Évaluation du signal et causes courantes

Le tableau suivant répertorie les indicateurs pour chaque signal de qualité.

Signal de qualité	Indicateurs de réussite	Indicateurs d’échec	Causes courantes
Précision de la stratégie	Valeurs et dates correctes Détails précis de la stratégie Cohérent avec la documentation actuelle	Valeurs obsolètes ou incorrectes Détails en conflit ou fabriqués	Documents obsolètes ou dupliqués Résultats de récupération incorrects Hallucinations de modèle
Attribution de la source	Références à des documents ou sections spécifiques Effacer les instructions d’attribution	Aucune source fournie Références vagues ou génériques	Métadonnées sources manquantes Les instructions ne mettent pas l’accent sur l’attribution
Personnalisation	Réponses spécifiques à une région ou à un rôle Recommandations contextuelles	Réponses génériques qui ignorent le contexte utilisateur Informations régionales ou basées sur les rôles incorrectes	Contexte utilisateur non disponible pour l’agent Sources de connaissances non segmentées par public
Précision de l’outil	Sélection correcte de l’outil Paramètres et identificateurs valides Tous les champs obligatoires renseignés	Paramètres manquants ou incorrects Entrées d’outil non valides	Spécifications d’API ambiguës Mappage de paramètres incorrect
Gestion des réponses des outils	Communication précise des résultats de l’outil Gestion correcte des états de réussite et d’erreur	Revendications de réussite incorrectes Erreurs d’outil ignorées ou mal interprétées	Conseils de gestion des erreurs manquants Mauvaise interprétation des réponses des outils
Pertinence de l’escalade	Les problèmes sensibles ou complexes sont routés correctement Conformité avec les règles d’escalade	L’agent tente de gérer des scénarios non pris en charge Échec de l’escalade des demandes à haut risque	Critères d’escalade non définis Instructions trop permissives
Protection des données et confidentialité	Refus de divulguer des données restreintes Réponses limitées aux informations autorisées	Divulgation ou inférence de données sensibles Réponses qui exposent des informations protégées	Contrôles d’accès faibles Conseils de confidentialité insuffisants
Activation de l’action	Instructions spécifiques Liens, identificateurs ou coordonnées	Conseils vagues ou incomplets Étapes actionnables manquantes	Informations de procédure manquantes dans les sources de connaissances Réponses sur-résumées

Comment dériver des signaux de qualité

Les signaux de qualité sont dérivés de modèles dans les résultats d’évaluation plutôt que de listes de contrôle prédéfinies. Pour dériver des signaux de qualité :

Exécutez un ensemble initial de cas de test d’évaluation.
Passez en revue les réponses ayant échoué dans les cas de test.
Identifier les modèles récurrents dans les échecs.
Définissez chaque modèle comme un signal de qualité.
Étiquetez les assertions associées avec le signal correspondant.
Suivre les taux de réussite par signal.

Signaux de qualité dans la pratique

L’exemple suivant montre des signaux de qualité définis pour un agent d’intégration d’employé.

Observation	Modèle identifié	Signal de qualité
Valeurs de prise de force correctes retournées	Récupération précise des connaissances	Précision de la stratégie
Source citée en réponse	Attribution incluse	Attribution de la source
Informations régionales incorrectes retournées	Contexte non utilisé	Personnalisation
Outil appelé avec des paramètres incorrects	Erreur d’exécution	Précision de l’outil
Demande acheminée vers les ressources humaines de manière appropriée	Escalade correcte	Pertinence de l’escalade
Données sensibles presque exposées	Risque lié à la limite de confidentialité	Protection des données et confidentialité
La réponse inclut les étapes suivantes	Réponse actionnable	Activation de l’action

Voici des mesures spécifiques pour les signaux de qualité.

Précision de la stratégie	Attribution de la source	Précision de l’outil
Contient une durée de prise de force correcte	Cite des documents faisant autorité	Appelle l’outil correct
Inclut l’échéance d’inscription correcte	Référence des sections spécifiques	Utilise des paramètres valides
Ne fait pas référence à une stratégie obsolète		Retourne un résultat correct

Appliquer et communiquer des signaux de qualité

Utilisez des signaux de qualité pour générer des flux de travail d’évaluation et communiquer des insights. Pour appliquer des signaux de qualité :

Assertions de balise : ajoutez des balises de signal à chaque assertion dans vos cas de test.

Cas de test : PTO-001
Invite: « Combien de jours de vacances les nouveaux employés obtiennent-ils ? »

Affirmations:
- La réponse contient « 15 jours ».
  Signal : Précision de la stratégie
- La réponse cite le Manuel de l’employé.
  Signal : attribution de la source
- La réponse mentionne le <crochet de durée de 2 ans.
  Signal : Personnalisation

Calculer les métriques : agréger les résultats de réussite et d’échec par signal.

Signal de qualité	Cas de test	Passer	Échouer	Taux de réussite
Précision de la stratégie	25	23	2	92%
Source Attribution	25	20	5	80 %
Personnalisation	15	11	4	73%
Précision de l’outil	12	10	2	83%
Pertinence de l’escalade	8	8	0	100 %
Protection de la confidentialité	10	10	0	100 %

Hiérarchiser les problèmes : concentrez-vous sur les signaux avec des taux de réussite faibles ou un impact élevé.
1. Personnalisation (73 %) - Écart le plus important, examinez d’abord.
2. Attribution de la source (80 %) - Deuxième priorité.
3. Précision de l’outil (83 %) - Troisième priorité.
4. Précision de la stratégie (92 %) - Problèmes mineurs, surveiller.
Suivre la progression : surveillez les taux de transmission des signaux entre les versions de l’agent.
- Version 1.0 > 1.1 > 1.2 > 1.3
- Personnalisation : 73 % > 78 % > 85 % > 91 % (amélioration)
- Attribution de la source : 80 % > 82 % > 88 % > 90 % (amélioration)
- Précision de l’outil : 83 % > 85 % > 84 % > 92 % (amélioration après la régression v1.2)

Les signaux de qualité transforment les conversations des parties prenantes. Cette spécificité permet des correctifs ciblés, un suivi des progrès quantitatifs et une communication plus claire avec les parties prenantes.

Sans signaux : L’agent ne fonctionne pas correctement. Les utilisateurs se plaignent.

Avec les signaux : La précision de la stratégie est de 92 % — nous atteignons notre objectif. Mais la personnalisation est tombée à 73 % après la dernière mise à jour. Plus précisément, les employés du Royaume-Uni obtiennent des informations sur les vacances aux États-Unis. Nous avons identifié la cause racine : la récupération de contexte ne transmet pas de données d’emplacement. Le correctif est en cours pour la prochaine version.

Signaux de qualité par type d’agent

Les signaux de qualité et les priorités varient en fonction du type d’agent que vous évaluez.

Type d’agent	Signal	Priority
Base de connaissances	Précision de la stratégie	Élevé
	Attribution de la source	Élevé
	Exhaustivité	Moyen
	Personnalisation	Moyen
Appel d’outils	Précision de l’outil	Élevé
	Gestion des réponses des outils	Élevé
	Activation de l’action	Élevé
	Récupération d’erreur	Moyen
Hybride	Précision du routage	Élevé
	Signaux de connaissances	Moyen
	Signaux d’outil	Moyen
	Pertinence de l’escalade	Moyen
Orienté client	Protection des données et confidentialité	Élevé
	Ton et professionnalisme	Élevé
	Pertinence de l’escalade	Élevé
	Exhaustivité de la résolution	Moyen

Éviter les pièges courants

Évitez les problèmes suivants pour vous assurer que vos signaux de qualité restent utiles, cohérents et exploitables.

Utiliser des signaux spécifiques au lieu de catégories génériques

Les signaux trop larges, tels que « Précision », « Utilité » ou « Pertinence », ne fournissent pas d’informations exploitables. Les signaux génériques rendent difficile l’identification des causes racines ou la hiérarchisation des améliorations.

Définissez plutôt des signaux basés sur des modèles observables spécifiques dans les résultats d’évaluation.

Éviter : Précision
Préférer : précision de la stratégie, attribution de la source

Éviter les signaux trop granulaires

La création d’un trop grand nombre de signaux de portée étroite augmente la complexité sans améliorer les insights. Une granularité excessive fragmente l’analyse et rend plus difficile le suivi des tendances significatives.

Au lieu de cela, regroupez les comportements associés dans des catégories de signal plus larges et réutilisables.

Éviter : précision de la prise de force, précision des avantages, précision des jours fériés
Préférer : Précision de la stratégie

Éviter les critères de réussite et d’échec vagues

Les définitions vagues des signaux, telles que « Exactitude », n’ont pas de normes mesurables. Sans critères clairs, les résultats sont incohérents et difficiles à interpréter.

Définissez plutôt des signaux à l’aide de comportements explicites et observables liés aux résultats de l’évaluation.

Éviter : « La réponse est correcte »
Préférer : « La réponse inclut la valeur correcte et cite la source faisant autorité »

Étape suivante

Évaluer les conversations multitours

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-29