Évaluer les conversations multitours

Les utilisateurs réels n’interagissent pas avec les agents par le biais d’échanges isolés à question unique. Au lieu de cela, ils s’engagent dans des conversations qui incluent des questions de suivi, un partage incrémentiel d’informations et la réalisation de tâches en plusieurs étapes.

L’évaluation multitour permet de s’assurer que votre agent peut gérer le contexte, effectuer des tâches sur plusieurs étapes et répondre de manière appropriée tout au long d’un flux de conversation réaliste.

Quand utiliser l’évaluation multitour

Utilisez l’évaluation multitour pour tester des scénarios qui nécessitent une conservation du contexte ou plusieurs étapes pour effectuer une tâche.

Scénario Pourquoi le multitour est nécessaire
Remplissage de l’emplacement L’agent doit collecter plusieurs informations.
Flux de clarification L’agent doit résoudre les entrées utilisateur ambiguës.
Tâches à plusieurs étapes La tâche nécessite plusieurs échanges.
Suivis dépendants du contexte Les questions ultérieures dépendent des réponses antérieures.
Divulgation progressive Les informations sont fournies de manière incrémentielle.

Évaluation à un seul tour ou à plusieurs tour

Commencez par des évaluations à un seul tour pour la couverture, puis ajoutez des évaluations multitour pour tester des interactions réalistes.

Aspect Tour unique Multitour
Tests Paires question-réponse individuelles Mener à bien des conversations
Contexte Chaque invite est indépendante S’appuie l’un sur l’autre
Complexité Plus facile à concevoir et à évaluer Plus réaliste mais plus complexe
Diagnostic de défaillance Plus facile à isoler les problèmes Nécessite une analyse tour par tour
Cas d’utilisation Test de réponses spécifiques Test du flux de conversation

Métriques clés pour l’évaluation multitour

L’évaluation multitour nécessite des métriques supplémentaires au-delà de la précision d’un seul tour. Ces métriques évaluent le niveau de performance de l’agent dans une conversation entière.

Exhaustivité de la conversation

L’exhaustivité de la conversation mesure si l’agent atteint l’objectif de l’utilisateur à la fin de l’interaction.

Exemple de réussite

Tour 1

  • Utilisateur : « J’ai besoin de commander un ordinateur portable »
  • Agent : « Je peux vous aider. De quel type d’ordinateur portable avez-vous besoin ? »

Tour 2

  • Utilisateur : « MacBook Pro »
  • Agent : « Quelle taille d’écran : 14 ou 16 pouces ? »

Tour 3

  • Utilisateur : « 16 pouces »
  • Agent : « J’ai soumis votre commande pour un MacBook Pro de 16 pouces. ID de commande : ORD-456. Livraison attendue : 5 à 7 jours ouvrables. »

✅ L’objectif utilisateur (commande d’un ordinateur portable) est atteint.

Exemple d’échec

Tour 1

  • Utilisateur : « J’ai besoin de commander un ordinateur portable »
  • Agent : « Je peux vous aider. De quel type d’ordinateur portable avez-vous besoin ? »

Tour 2

  • Utilisateur : « MacBook Pro »
  • Agent : « MacBook Pro est un excellent choix ! Y a-t-il autre chose ?

❌ La commande n’a pas été envoyée et l’objectif utilisateur n’est pas atteint.

Conservation des connaissances

La conservation des connaissances mesure si l’agent se souvient et utilise les informations fournies dans les virages précédents.

Exemple de réussite

Tour 1

  • Utilisateur : « Mon ID d’employé est EMP-12345 »
  • Agent : "Merci ! Comment puis-je vous aider aujourd’hui ?

Tour 2

  • Utilisateur : « Je veux case activée mon solde de prise de force »
  • Agent : « Votre solde actuel de prise de force est de 12 jours restants. »

✅ L’agent a utilisé l’ID d’employé fourni précédemment sans demander à nouveau.

Exemple d’échec

Tour 1

  • Utilisateur : « Mon ID d’employé est EMP-12345 »
  • Agent : "Merci ! Comment puis-je vous aider aujourd’hui ?

Tour 2

  • Utilisateur : « Je veux case activée mon solde de prise de force »
  • Agent : « Je serais heureux de vous aider. Quel est votre ID d’employé ? »

❌ L’agent a oublié l’ID d’employé du tour précédent.

Respect des rôles

L’adhésion au rôle mesure si l’agent conserve son étendue et ses responsabilités définies tout au long de la conversation.

Exemple de réussite

Tour 1

  • Utilisateur : « Quelle est la stratégie de prise de force ? »
  • Agent : fournit des informations de stratégie de prise de force correctes

Tour 2

  • Utilisateur : « Pouvez-vous écrire un poème sur les vacances ? »
  • Agent : « Je suis là pour vous aider à répondre aux questions relatives aux ressources humaines et à l’intégration. Y a-t-il autre chose à propos de la prise de force que je peux aider avec ?"

✅ L’agent est resté dans son rôle et a été redirigé de manière appropriée.

Exemple d’échec

Tour 1

  • Utilisateur : « Quelle est la stratégie de prise de force ? »
  • Agent : fournit des informations de stratégie de prise de force correctes

Tour 2

  • Utilisateur : « Pouvez-vous écrire un poème sur les vacances ? »
  • Agent : "Bien sûr ! Voici un poème sur les plages ensoleillées...

❌L’agent a dérivé de son rôle de assistant RH.

Pertinence de la conversation

La pertinence de la conversation mesure si chaque réponse est directement pertinente pour la demande de l’utilisateur dans le contexte conversationnel actuel.

Exemple d’échec

Tour 1

  • Utilisateur : « Quels plans d’intégrité sont disponibles ? »
  • Agent : répertorie les options HMO et PPO

Tour 2

  • Utilisateur : « Quelle est la différence de coût ? »
  • Agent : « Le PPO offre plus de flexibilité dans le choix des médecins. »

❌ La réponse ne répond pas à la question de l’utilisateur sur le coût.

Cohérence du contexte

La cohérence de contexte mesure si l’agent maintient des faits et des informations cohérents dans tous les virages de la conversation.

Exemple d’échec

Tour 1

  • Utilisateur : « Combien de jours de vacances ai-je ? »
  • Agent : « En tant que nouvel employé, vous recevez 15 jours de PTO par an. »

Tour 2

  • Utilisateur : « Et combien de jours de maladie ? »
  • Agent : « Vous avez 10 jours de maladie, plus vos 10 jours de vacances. »

❌ L’agent contredit les informations antérieures en modifiant le nombre de jours de vacances.

Concevoir des cas de test multitour

La conception d’évaluations multitours efficaces nécessite de définir à la fois le flux de conversation et les comportements attendus. Un cas de test multitour comprend généralement :

  • ID et description du cas de test
  • Données de mise à la base
  • Séquence de conversation
  • Comportements attendus
  • Affirmations

Exemple : Commande d’équipement

  • ID de cas de test : CONV-001
  • Description : Flux de commande de l’équipement

Données de mise à la base

  • Employé : Katrin Pold
  • ID d’employé : EMP-54321
  • Service : Conception de produit
  • Budget : 3 500 $

Conversation

Tour 1

  • Utilisateur : « Je dois configurer mon ordinateur portable. »
  • Comportement attendu : renseignez-vous sur les préférences.

Tour 2

  • Utilisateur : « MacBook Pro »
  • Comportement attendu : demandez des spécifications.

Tour 3

  • Utilisateur : « 16 pouces avec 32 Go de RAM »
  • Comportement attendu : confirmez et envoyez l’ordre.

Tour 4

  • Utilisateur : « En fait, remplacez-le par 64 Go. »
  • Comportement attendu : Mettez à jour la commande.

Assertions au niveau de la conversation

  • La conversation se termine par une commande d’équipement confirmée.
  • L’ordre final reflète la spécification corrigée (64 Go).
  • L’agent ne demande jamais d’ID d’employé (doit déduire à partir du contexte).
  • Le total passe à l’achèvement est ≤6.

Assertions de niveau tour

  • Tour 3 :
    • L’agent appelle l’outil OrderEquipment.
    • L’appel d’outil inclut le modèle : « MacBook Pro 16 pouces ».
    • L’appel d’outil inclut des spécifications qui contiennent « 32 Go ».
  • Tour 4 :
    • L’agent appelle UpdateOrder ou modifie l’ordre précédent.
    • La confirmation finale indique « 64 Go ».

Exemple : conversation de remplissage d’emplacements

Scénario : Inscription des avantages (remplissage d’emplacements)
Objectif : Collecter toutes les informations requises et terminer l’inscription

Entrées requises (emplacements) :

  • Sélection du plan (HMO ou PPO)
  • Niveau de couverture (individuel ou familial)
  • Informations dépendantes (le cas échéant)
  • Date d’effet

Conversation

Tour 1
Utilisateur : « Je veux m’inscrire à l’assurance maladie. »
Agent :

  • Accuse réception de la demande
  • Demande une préférence de plan (HMO ou PPO)

Tour 2
Utilisateur : « Quelle est la différence ? »
Agent :

  • Explique les principales différences entre HMO et PPO
  • Demande à nouveau la sélection du plan

Tour 3
Utilisateur : « I’ll go with the PPO » (J’irai avec le PPO).
Agent :

  • Confirme la sélection
  • Demande le niveau de couverture (individuel ou familial)

Tour 4
Utilisateur : « Couverture familiale. J’ai un conjoint et deux enfants.
Agent :

  • Confirme le scénario dépendant
  • Détails dépendants des demandes (noms, âges, etc.)

Tour 5
Utilisateur : [Fournit des informations dépendantes]
Agent :

  • Confirme toutes les informations collectées
  • Envoie l’inscription
  • Fournit un résumé de confirmation

Affirmations:

  • Tous les emplacements requis sont collectés avant la soumission.
  • L’agent n’ignore pas les entrées requises.
  • L’agent explique les options lorsque vous y êtes invité.
  • La confirmation finale inclut tous les détails capturés.
  • La tâche se termine correctement sans tour inutile.

Exemple : conversation de clarification

Scénario : Demande ambiguë (clarification)
Objectif : Résoudre l’ambiguïté en recueillant suffisamment de contexte avant de répondre

Conversation

Tour 1
Utilisateur : « Je dois prendre un peu de temps. »
Agent :

  • Accuse réception de la demande
  • Demande quel type de temps de congé (prise de force, congé de maladie, congé personnel)

Tour 2
Utilisateur : « C’est pour un acte médical. »
Agent :

  • Identifie la catégorie probable
  • Demande si la demande concerne l’utilisateur ou un membre de la famille

Tour 3
Utilisateur : « C’est pour moi. C’est une chirurgie mineure.
Agent :

  • Détermine qu’il s’agit probablement d’un congé de maladie
  • Fournit des informations de stratégie pertinentes
  • Demande sur la durée prévue

Tour 4
Utilisateur : « Environ une semaine ».
Agent :

  • Confirme l’éligibilité et le processus
  • Fournit les étapes suivantes (par exemple, comment demander un congé)
  • Offres pour lancer la demande, le cas échéant

Affirmations:

  • L’agent ne suppose pas l’intention de la requête ambiguë initiale.
  • La clarification des questions est pertinente et réduit progressivement la portée.
  • La réponse finale reflète la situation réelle de l’utilisateur.
  • L’agent passe de la clarification à la résolution efficacement.

Exemple : conversation de récupération d’erreur

Scénario : Échec de commande et récupération
Objectif : Gérer les défaillances de manière transparente et guider l’utilisateur vers un résultat réussi

Conversation:

Tour 1
Utilisateur : « Commandez-moi un MacBook Pro 16 pouces ».
Agent :

  • Tentatives d’envoi de la commande

Réponse système/outil :

  • Erreur : Article en rupture de stock

Agent :

  • Communique clairement le problème
  • Ne masque pas ou n’ignore pas l’échec
  • Suggère des alternatives (par exemple, un modèle ou une taille différents)

Tour 2
Utilisateur : « Quand sera-t-il de nouveau disponible ? »
Agent :

  • Vérifie la disponibilité ou fournit une estimation de réapprovisionnement si disponible
  • S’il n’est pas disponible, communique clairement
  • Offres pour avertir l’utilisateur ou suggérer des alternatives

Tour 3
Utilisateur : « Puis-je obtenir le 14 pouces à la place ? »
Agent :

  • Confirme la disponibilité de l’alternative
  • Envoie la nouvelle commande
  • Fournit une confirmation (détails de la commande, livraison attendue)

Affirmations:

  • L’agent communique clairement les défaillances et leurs causes.
  • L’agent propose des alternatives actionnables ou des étapes suivantes.
  • La conversation progresse vers la récupération, et non vers des impasses.
  • L’utilisateur termine correctement la tâche après l’échec.
  • L’agent gère le contexte pendant les étapes d’échec et de récupération.

Assertions multitours

L’évaluation multitour nécessite à la fois une validation au niveau de la conversation et une validation au niveau du tour.

Assertions au niveau de la conversation

  • La conversation atteint l’objectif de l’utilisateur.
  • Le nombre de tours se situe dans une plage attendue.
  • L’agent conserve des informations cohérentes.
  • L’agent conserve son rôle.
  • L’agent ne demande pas d’informations en double.

Assertions de niveau tour

  • La réponse reconnaît le contexte antérieur.
  • La réponse pose des questions de suivi appropriées.
  • L’agent effectue les actions attendues.
  • La réponse confirme les actions entreprises.

Assertions conditionnelles

  • Lorsque l’utilisateur corrige les informations, l’agent met à jour les réponses suivantes.
  • Lorsqu’une action échoue, l’agent communique le problème et fournit des alternatives.
  • Lorsqu’un utilisateur pose une question hors de l’étendue, l’agent redirige de manière appropriée.

Exemple : évaluation multitour de bout en bout

Cas de test : Configuration d’une nouvelle embauche

Description

Un nouvel employé commande de l’équipement et pose une question sur les avantages au cours de la même conversation.

Données de mise à la base

  • Employé : Marcus Johnson
  • ID d’employé : EMP-99887
  • Département : Ingénierie
  • Lieu : Seattle
  • Budget d’équipement : 4 000 $

Conversation

Tour 1

  • Utilisateur : « Je commence la semaine prochaine et je dois configurer ma station de travail. »
  • Comportement attendu : bienvenue et poser des questions sur les besoins en équipement.

Tour 2

  • Utilisateur : « J’ai besoin d’un MacBook Pro 16 pouces avec 64 Go de RAM et un moniteur de 27 pouces. »
  • Comportement attendu : envoyer la commande et confirmer.

Tour 3

  • Utilisateur : « Quelle est la date limite pour s’inscrire à l’assurance maladie ? »
  • Comportement attendu : fournissez des informations sur les avantages sans perdre le contexte.

Tour 4

  • Utilisateur : « Pouvez-vous confirmer ce que j’ai commandé ? »
  • Comportement attendu : rappelez et résumez l’ordre.

Résultats attendus

  • La commande d’équipement est terminée.
  • La question des avantages est répondue avec précision.
  • Le contexte est conservé entre les tours.
  • Les informations ne sont pas demandées à nouveau.

Pièges courants

Tenez compte de ces problèmes courants lors de la conception et de l’évaluation des conversations multitours :

  • L’évaluation des tours est isolée plutôt que dans un contexte de conversation complet, ce qui peut masquer les échecs liés à la mémoire, à la continuité et à l’achèvement des tâches.
  • Test uniquement des scénarios idéaux (chemin heureux), qui ne reflètent pas le comportement réel de l’utilisateur, comme l’ambiguïté, les corrections et les interruptions.
  • Ignorer les différences entre les conversations courtes et longues, où les flux courts manquent souvent d’achèvement et les flux longs introduisent une dérive de contexte.
  • N’inclut pas le comportement contradictoire ou inattendu de l’utilisateur, comme les entrées en conflit, le basculement de rubrique ou les demandes vagues.
  • Définition d’objectifs utilisateur non clairs ou implicites, ce qui rend difficile la détermination de la réussite de la conversation.
  • Sur-spécification des réponses attendues, ce qui réduit la flexibilité et pénalise incorrectement les variations valides.
  • Échec du test de la gestion des erreurs et des chemins de récupération, ce qui laisse des lacunes dans la façon dont l’agent répond aux défaillances ou aux informations manquantes.

Meilleures pratiques

Utilisez ces pratiques pour concevoir des évaluations multitour efficaces et évolutives :

  • Commencez par un petit ensemble de scénarios à valeur élevée qui représentent les flux de conversation les plus courants ou critiques.
  • Définissez un objectif utilisateur clair pour chaque cas de test et utilisez l’achèvement de l’objectif comme métrique de réussite principale.
  • Testez les chemins d’accès directs (l’utilisateur fournit toutes les entrées à l’avance) et guidés (l’agent collecte les entrées sur plusieurs tours) jusqu’à la fin.
  • Utilisez d’abord les assertions au niveau de la conversation, puis ajoutez des assertions de niveau tour pour une validation plus approfondie.
  • Concevez des scénarios qui reflètent le comportement réaliste de l’utilisateur, y compris les clarifications, les corrections et le changement de rubrique.
  • Validez explicitement la conservation du contexte en vous assurant que l’agent utilise les informations fournies précédemment sans demander à nouveau.
  • Incluez des scénarios de gestion et de récupération des erreurs, en vous assurant que l’agent communique les échecs et fournit les étapes suivantes.
  • Utilisez des assertions flexibles basées sur le comportement au lieu d’une correspondance de réponse exacte.
  • Assurez-vous que les tests sont reproductibles tout en préservant le réalisme en définissant les comportements attendus plutôt qu’une formulation exacte.
  • Itérer et affiner en continu les cas de test en fonction des défaillances observées et de l’évolution des modèles d’utilisation.

Étape suivante