Dériver des signaux de qualité pour l’évaluation de l’agent Copilot

Les signaux de qualité fournissent un moyen structuré de comprendre pourquoi les réponses de l’agent réussissent ou échouent. Ils aident les équipes à regrouper les résultats des évaluations en catégories significatives, à hiérarchiser les améliorations et à suivre la progression au fil du temps.

Cet article explique comment dériver des signaux de qualité à partir des résultats de l’évaluation pour diagnostiquer les problèmes, identifier des modèles et améliorer les performances de l’agent Copilot.

En utilisant des signaux de qualité, les équipes peuvent :

  • Identifier les modèles d’échecs récurrents
  • Hiérarchiser les améliorations en fonction de l’impact
  • Suivre les performances entre les itérations
  • Communiquer clairement les résultats aux parties prenantes

Que sont les signaux de qualité ?

Les signaux de qualité sont des catégories qui représentent des modèles dans les résultats de l’évaluation. Ils proviennent d’un comportement observé plutôt que de règles prédéfinies.

Les assertions et les signaux de qualité fonctionnent ensemble dans un workflow d’évaluation :

  • Les assertions déterminent si une réponse réussit ou échoue.
  • Les signaux de qualité regroupent les résultats d’assertion dans des modèles de niveau supérieur.
Aspect Affirmations Signaux de qualité
Level Spécifique et concret Abstrait et catégorique
Objectif Déterminer la réussite ou l’échec Modèles de diagnostic
Quantité Plusieurs par cas de test Peu par agent
Origin Défini avant le test Dérivé des résultats
Exemple Contient « 15 jours » Précision de la stratégie

Une fois que vous avez défini des assertions, dérivez des signaux de qualité à partir des résultats d’assertion et utilisez ces signaux pour suivre les performances entre les scénarios.

Signaux de qualité courants

Utilisez les signaux de qualité courants suivants lorsque vous évaluez les agents Copilot :

  • Précision de la stratégie : mesure si les réponses s’alignent sur les sources de connaissances faisant autorité
  • Attribution de source : mesure si les réponses identifient clairement les sources d’informations
  • Personnalisation : mesure si les réponses utilisent le contexte utilisateur approprié
  • Précision de l’outil : mesure si les appels d’outils sont exécutés correctement
  • Gestion des réponses de l’outil : mesure si l’agent interprète correctement la sortie de l’outil
  • Pertinence de l’escalade : mesure si les demandes sont acheminées vers le support humain si nécessaire
  • Protection de la confidentialité : mesure si les informations sensibles sont protégées
  • Activation de l’action : mesure si les réponses fournissent des étapes suivantes claires

Évaluation du signal et causes courantes

Le tableau suivant répertorie les indicateurs pour chaque signal de qualité.

Signal de qualité Indicateurs de réussite Indicateurs d’échec Causes courantes
Précision de la stratégie Valeurs et dates correctes

Détails précis de la stratégie

Cohérent avec la documentation actuelle
Valeurs obsolètes ou incorrectes

Détails en conflit ou fabriqués
Documents obsolètes ou dupliqués

Résultats de récupération incorrects

Hallucinations de modèle
Attribution de la source Références à des documents ou sections spécifiques

Effacer les instructions d’attribution
Aucune source fournie

Références vagues ou génériques
Métadonnées sources manquantes

Les instructions ne mettent pas l’accent sur l’attribution
Personnalisation Réponses spécifiques à une région ou à un rôle

Recommandations contextuelles
Réponses génériques qui ignorent le contexte utilisateur

Informations régionales ou basées sur les rôles incorrectes
Contexte utilisateur non disponible pour l’agent

Sources de connaissances non segmentées par public
Précision de l’outil Sélection correcte de l’outil

Paramètres et identificateurs valides

Tous les champs obligatoires renseignés
Paramètres manquants ou incorrects

Entrées d’outil non valides
Spécifications d’API ambiguës

Mappage de paramètres incorrect
Gestion des réponses des outils Communication précise des résultats de l’outil

Gestion correcte des états de réussite et d’erreur
Revendications de réussite incorrectes

Erreurs d’outil ignorées ou mal interprétées
Conseils de gestion des erreurs manquants

Mauvaise interprétation des réponses des outils
Pertinence de l’escalade Les problèmes sensibles ou complexes sont routés correctement

Conformité avec les règles d’escalade
L’agent tente de gérer des scénarios non pris en charge

Échec de l’escalade des demandes à haut risque
Critères d’escalade non définis

Instructions trop permissives
Protection des données et confidentialité Refus de divulguer des données restreintes

Réponses limitées aux informations autorisées
Divulgation ou inférence de données sensibles

Réponses qui exposent des informations protégées
Contrôles d’accès faibles

Conseils de confidentialité insuffisants
Activation de l’action Instructions spécifiques

Liens, identificateurs ou coordonnées
Conseils vagues ou incomplets

Étapes actionnables manquantes
Informations de procédure manquantes dans les sources de connaissances

Réponses sur-résumées

Comment dériver des signaux de qualité

Les signaux de qualité sont dérivés de modèles dans les résultats d’évaluation plutôt que de listes de contrôle prédéfinies. Pour dériver des signaux de qualité :

  • Exécutez un ensemble initial de cas de test d’évaluation.
  • Passez en revue les réponses ayant échoué dans les cas de test.
  • Identifier les modèles récurrents dans les échecs.
  • Définissez chaque modèle comme un signal de qualité.
  • Étiquetez les assertions associées avec le signal correspondant.
  • Suivre les taux de réussite par signal.

Signaux de qualité dans la pratique

L’exemple suivant montre des signaux de qualité définis pour un agent d’intégration d’employé.

Observation Modèle identifié Signal de qualité
Valeurs de prise de force correctes retournées Récupération précise des connaissances Précision de la stratégie
Source citée en réponse Attribution incluse Attribution de la source
Informations régionales incorrectes retournées Contexte non utilisé Personnalisation
Outil appelé avec des paramètres incorrects Erreur d’exécution Précision de l’outil
Demande acheminée vers les ressources humaines de manière appropriée Escalade correcte Pertinence de l’escalade
Données sensibles presque exposées Risque lié à la limite de confidentialité Protection des données et confidentialité
La réponse inclut les étapes suivantes Réponse actionnable Activation de l’action

Voici des mesures spécifiques pour les signaux de qualité.

Précision de la stratégie Attribution de la source Précision de l’outil
Contient une durée de prise de force correcte Cite des documents faisant autorité Appelle l’outil correct
Inclut l’échéance d’inscription correcte Référence des sections spécifiques Utilise des paramètres valides
Ne fait pas référence à une stratégie obsolète Retourne un résultat correct

Appliquer et communiquer des signaux de qualité

Utilisez des signaux de qualité pour générer des flux de travail d’évaluation et communiquer des insights. Pour appliquer des signaux de qualité :

  • Assertions de balise : ajoutez des balises de signal à chaque assertion dans vos cas de test.

    Cas de test : PTO-001
    Invite: « Combien de jours de vacances les nouveaux employés obtiennent-ils ? »

    Affirmations:

    • La réponse contient « 15 jours ».
      Signal : Précision de la stratégie

    • La réponse cite le Manuel de l’employé.
      Signal : attribution de la source

    • La réponse mentionne le <crochet de durée de 2 ans.
      Signal : Personnalisation

  • Calculer les métriques : agréger les résultats de réussite et d’échec par signal.

    Signal de qualité Cas de test Passer Échouer Taux de réussite
    Précision de la stratégie 25 23 2 92%
    Source Attribution 25 20 5 80 %
    Personnalisation 15 11 4 73%
    Précision de l’outil 12 10 2 83%
    Pertinence de l’escalade 8 8 0 100 %
    Protection de la confidentialité 10 10 0 100 %
  • Hiérarchiser les problèmes : concentrez-vous sur les signaux avec des taux de réussite faibles ou un impact élevé.

    1. Personnalisation (73 %) - Écart le plus important, examinez d’abord.
    2. Attribution de la source (80 %) - Deuxième priorité.
    3. Précision de l’outil (83 %) - Troisième priorité.
    4. Précision de la stratégie (92 %) - Problèmes mineurs, surveiller.
  • Suivre la progression : surveillez les taux de transmission des signaux entre les versions de l’agent.

    • Version 1.0 > 1.1 > 1.2 > 1.3
    • Personnalisation : 73 % > 78 % > 85 % > 91 % (amélioration)
    • Attribution de la source : 80 % > 82 % > 88 % > 90 % (amélioration)
    • Précision de l’outil : 83 % > 85 % > 84 % > 92 % (amélioration après la régression v1.2)

Les signaux de qualité transforment les conversations des parties prenantes. Cette spécificité permet des correctifs ciblés, un suivi des progrès quantitatifs et une communication plus claire avec les parties prenantes.

Sans signaux : L’agent ne fonctionne pas correctement. Les utilisateurs se plaignent.

Avec les signaux : La précision de la stratégie est de 92 % — nous atteignons notre objectif. Mais la personnalisation est tombée à 73 % après la dernière mise à jour. Plus précisément, les employés du Royaume-Uni obtiennent des informations sur les vacances aux États-Unis. Nous avons identifié la cause racine : la récupération de contexte ne transmet pas de données d’emplacement. Le correctif est en cours pour la prochaine version.

Signaux de qualité par type d’agent

Les signaux de qualité et les priorités varient en fonction du type d’agent que vous évaluez.

Type d’agent Signal Priority
Base de connaissances Précision de la stratégie Élevé
Attribution de la source Élevé
Exhaustivité Moyen
Personnalisation Moyen
Appel d’outils Précision de l’outil Élevé
Gestion des réponses des outils Élevé
Activation de l’action Élevé
Récupération d’erreur Moyen
Hybride Précision du routage Élevé
Signaux de connaissances Moyen
Signaux d’outil Moyen
Pertinence de l’escalade Moyen
Orienté client Protection des données et confidentialité Élevé
Ton et professionnalisme Élevé
Pertinence de l’escalade Élevé
Exhaustivité de la résolution Moyen

Éviter les pièges courants

Évitez les problèmes suivants pour vous assurer que vos signaux de qualité restent utiles, cohérents et exploitables.

Utiliser des signaux spécifiques au lieu de catégories génériques

Les signaux trop larges, tels que « Précision », « Utilité » ou « Pertinence », ne fournissent pas d’informations exploitables. Les signaux génériques rendent difficile l’identification des causes racines ou la hiérarchisation des améliorations.

Définissez plutôt des signaux basés sur des modèles observables spécifiques dans les résultats d’évaluation.

  • Éviter : Précision
  • Préférer : précision de la stratégie, attribution de la source

Éviter les signaux trop granulaires

La création d’un trop grand nombre de signaux de portée étroite augmente la complexité sans améliorer les insights. Une granularité excessive fragmente l’analyse et rend plus difficile le suivi des tendances significatives.

Au lieu de cela, regroupez les comportements associés dans des catégories de signal plus larges et réutilisables.

  • Éviter : précision de la prise de force, précision des avantages, précision des jours fériés
  • Préférer : Précision de la stratégie

Éviter les critères de réussite et d’échec vagues

Les définitions vagues des signaux, telles que « Exactitude », n’ont pas de normes mesurables. Sans critères clairs, les résultats sont incohérents et difficiles à interpréter.

Définissez plutôt des signaux à l’aide de comportements explicites et observables liés aux résultats de l’évaluation.

  • Éviter : « La réponse est correcte »
  • Préférer : « La réponse inclut la valeur correcte et cite la source faisant autorité »

Étape suivante