Invites d’évaluation de la conception

La qualité de votre évaluation dépend de la qualité de vos invites. Des invites bien conçues testent exactement ce que vous souhaitez, ni plus ni moins.

Cet article explique comment concevoir des invites d’évaluation qui produisent des résultats clairs et exploitables.

Anatomie d’une invite d’évaluation efficace

Les invites d’évaluation efficaces partagent quatre caractéristiques :

  • Intention unique
  • Formulation réaliste
  • Ancré dans les données
  • Autonome

Intention unique

Chaque invite doit tester un objectif ou une question utilisateur. Les invites multi-intentions compliquent l’identification de la cause d’un échec.

Multi-intention (éviter) Intention unique (préféré)
Quel est mon solde de prise de force et pouvez-vous me commander un ordinateur portable ? Quel est mon solde de prise de force ?
Parlez-moi des avantages pour la santé et aussi du match 401k. Quels plans d’assurance maladie sont disponibles ?

Pour tester plusieurs fonctionnalités ensemble, utilisez des évaluations de conversation multitours au lieu de combiner des intentions en une seule invite.

Formulation réaliste

Requêtes doivent refléter la façon dont les utilisateurs communiquent réellement, y compris le langage informel, les phrases incomplètes et les différents niveaux de détail.

Trop formel Réaliste
Veuillez fournir des renseignements sur l’allocation annuelle de congés payés pour les employés au cours de leur première année d’emploi. Combien de jours de vacances les nouvelles recrues obtiennent-ils ?
J’aimerais lancer une demande d’achat d’équipement informatique. J’ai besoin de commander un ordinateur portable.

Vous pouvez dériver des invites réalistes à partir de :

  • Journaux des requêtes de production
  • Sessions de recherche utilisateur
  • Tickets de support
  • Conversations quotidiennes sur le lieu de travail

Ancré dans les données

Requêtes doivent être ancrées dans les données. Lorsque des données de mise à la terre sont disponibles, utilisez des entités, des valeurs et des identificateurs spécifiques. Cette approche rend les évaluations mesurables et vérifiables.

Les invites ancrées autorisent des assertions précises telles que « La réponse contient 15 jours », au lieu de vérifications vagues comme « La réponse contient le nombre correct ».

Sans mise à la terre des données

Invite : « Quelle est la stratégie de prise de force pour les ingénieurs ? »

Avec des données de mise à la terre

Données de mise à la base :

  • Employé : Marcus Johnson
  • Département : Ingénierie
  • Durée : 8 mois
  • Responsable : Lisa Park
  • Emplacement : Bureau d’Austin

Invite : « Je fais partie de l’équipe d’ingénierie — combien de jours de vacances ai-je ? »

Autonome (un seul tour)

Pour les évaluations à un seul tour, chaque invite doit inclure tout le contexte requis. L’agent ne peut pas s’appuyer sur des tours de conversation antérieurs. Le tableau suivant présente des exemples d’invites autonomes.

Autonome Dépend du contexte (éviter)
Que couvre le plan d’intégrité PPO ? Qu’en est-il des autres plans de santé ?
Quel est le coût employé pour le plan d’intégrité PPO ? Et combien cela coûte-t-il ?
Pouvez-vous commander un MacBook Pro de 16 pouces ? Pouvez-vous commander cela à la place ?

Pour les scénarios qui s’étendent sur plusieurs tours, utilisez des conversations à plusieurs tours.

Variations d’invite

Les utilisateurs ne posent pas tous la même question de la même façon. Pour tester la généralisation, créez trois variantes de chaque invite.

Invites canoniques

Les invites canoniques sont explicites, complètes et sans ambiguïté. Ils servent de base.

  • Incluez tous les paramètres requis.
  • Utilisez une terminologie précise.
  • Évitez toute ambiguïté.
  • Représente une requête idéale.

Exemple

« Combien de jours de congés payés les employés ayant moins de deux ans d’ancienneté reçoivent-ils annuellement selon la politique actuelle de la PTO ? »

Variante de langage naturel

La variante du langage naturel reflète la formulation conversationnelle quotidienne. Variantes du langage naturel :

  • Utilisez un langage informel et conversationnel.
  • Peut inclure des synonymes ou des termes informels.
  • Évitez les identificateurs techniques.
  • Restez suffisamment complet pour répondre.

Exemple

« Hé, combien de vacances est-ce que je reçois en tant que nouvelle recrue ? »

Le tableau suivant compare les invites canoniques et les variantes en langage naturel.

Technique Canonique Variante naturelle
Synonymes « congé payé » « jours de vacances », « congés », « PTO »
Formulation informelle « Combien de jours dois-je recevoir » « combien puis-je obtenir »
Contexte implicite « employés avec <2 ans d’ancienneté » « comme une nouvelle recrue »
Casse décontractée Mise en majuscules appropriée minuscules, ponctuation minimale

Sonde de robustesse

La sonde de robustesse évalue la façon dont l’agent gère les entrées imparfaites. Sondes de robustesse :

  • Incluez des fautes de frappe réalistes.
  • Contiennent des erreurs grammaticales.
  • Utilisez des abréviations ou des abréviations.
  • Tester la reconnaissance de l’intention sous le bruit.

Exemple: « whats my vacaton days entitlement »

Le tableau suivant présente des exemples de modèles à tester.

Modèle Exemple
Typos « vacaton » au lieu de « vacances »
Ponctuation manquante « whats » au lieu de « what’s »
Mots manquants « combien de jours obtiennent »
Abréviations « PTO bal ? »
Requêtes d’exécution « besoin d’ordinateur portable macbook pro 16 pouces »

Exemples complets de variantes d’invite

Les exemples suivants illustrent les trois types d’invite pour un scénario unique.

Scénario : Commande de l’équipement

Ce scénario inclut les données de base suivantes :

  • Employé : Katrin Pold
  • Service : Conception de produit
  • Date de début : 2024-01-15
  • Budget de l’équipement : 3 500 $
  • Éléments approuvés : MacBook Pro (14 ou 16 pouces), moniteur externe, clavier, souris

Variations d’invite

Canonique

« Je suis un nouvel employé au service Conception de produits à compter du 15 janvier 2024. Je dois commander un ordinateur portable MacBook Pro de 16 pouces. Veuillez soumettre cette demande d’équipement via le système de commande informatique. »

Langage naturel

« Bonjour, je viens de rejoindre l’équipe de conception de produit et j’ai besoin de configurer mon ordinateur portable. Puis-je obtenir un MacBook Pro ? Le 16 pouces de préférence."

Sonde de robustesse

« besoin de commander macbook pro 16in pour un nouveau travail dans la conception de produit »

Assertions (s’appliquent à toutes les variantes) :

  • La réponse confirme que la commande d’équipement a été lancée.
  • L’agent a appelé l’outil OrderEquipment .
  • L’appel à l’outil inclut « MacBook Pro 16 pouces » (ou équivalent).
  • La réponse inclut une confirmation de commande ou un numéro de référence.

Scénario : Question de stratégie avec personnalisation

Ce scénario inclut les données de base suivantes :

  • Employé : James Wright
  • Emplacement : Londres, bureau du Royaume-Uni
  • Durée : 6 mois
  • Type d’emploi : Temps plein

Variations d’invite

Canonique

« En tant qu’employé à temps plein basé dans le bureau de Londres, au Royaume-Uni avec 6 mois d’ancienneté, à quels jours fériés ai-je droit cette année ?

Langage naturel

« Je travaille dans le bureau de Londres - quels jours fériés puis-je partir ? »

Sonde de robustesse

« Les jours fériés du bureau du Royaume-Uni hors de cette yr ? »

Assertions (s’appliquent à toutes les variantes) :

  • La réponse répertorie les jours fériés du Royaume-Uni (pas les jours fériés américains).
  • La réponse comprend au moins : Jour de l’An, Pâques, Noël.
  • La réponse fait référence à la stratégie ou à la planification du Royaume-Uni.
  • La réponse ne mention pas les jours fériés américains tels que le 4 juillet ou Thanksgiving.

Modèles à éviter

Évitez les modèles d’invite suivants.

Invites multi-intentions

Évitez les invites multi-intentions. Lorsque votre invite couvre plusieurs intentions, vous ne pouvez pas déterminer quelle intention a provoqué un échec.

  • Éviter: Quel est mon solde de prise de force, et pouvez-vous me parler des options d’assurance santé, et j’ai peut-être besoin d’un ordinateur portable aussi ?
  • Utilisez à la place : Fractionnez en invites distinctes ou utilisez l’évaluation multithread.

Invites prenant en compte les schémas

Évitez les invites prenant en compte les schémas. Les invites prenant en charge les schémas ne fonctionnent pas correctement, car les utilisateurs ne connaissent pas les API internes ou les noms d’outils.

  • Éviter: « Appeler l’API GetPTOBalance pour l’ID d’employé 12345 »
  • Utilisez à la place : « Quel est mon solde de vacances actuel ? »

Invites vagues

Évitez les invites vagues. Si votre invite est vague, vous ne pouvez pas définir d’assertions mesurables.

  • Éviter: « Aidez-moi avec des trucs RH »
  • Utilisez à la place : « Comment faire s’inscrire au régime d’assurance dentaire ? »

Invites de début

Requêtes qui indiquent la réponse attendue ne testent pas l’efficacité réelle du raisonnement de l’agent.

  • Éviter: « La politique PTO dit 15 jours, n’est-ce pas ? »
  • Utilisez à la place : « Combien de jours de prise de force les nouveaux employés reçoivent-ils ? »

Non autonome (un seul tour)

Évitez les invites qui dépendent du contexte précédent.

  • Éviter: « Qu’en est-il de l’autre option ? »
  • Utilisez à la place : « Quelle est la différence entre les plans de santé HMO et PPO ? »

Générer des invites à partir de scénarios utilisateur

Commencez par une intention utilisateur réelle plutôt que par des listes de fonctionnalités.

  • Collectez les questions des utilisateurs représentatifs.
  • Regrouper par scénario (par exemple, recherche de stratégie, actions, escalade).
  • Écrivez une invite canonique pour chaque scénario.
  • Ajoutez des variantes de langage naturel et de robustesse.
  • Invite au sol avec des données concrètes.

Cette approche garantit que les évaluations reflètent l’utilisation réelle.

Extension de l’invite assistée par IA (facultatif)

Une fois que vous avez établi une base de référence solide, utilisez l’IA pour étendre la couverture. Demandez à l’IA de suggérer d’autres variantes. Passez en revue chaque suggestion de réalisme et de pertinence. Rejeter les invites qui ne sont pas naturelles, qui prennent en charge les schémas ou qui ne sont pas dans l’étendue. Ajoutez des invites uniquement là où elles améliorent la couverture.

Liste de vérification de la couverture des invites

Utilisez cette liste de vérification pour vous assurer que votre couverture d’invite est complète.

Couverture des fonctionnalités

  • Chaque outil ou action a au moins un cas de test
  • Chaque domaine de connaissances est représenté
  • Le comportement d’escalade est testé
  • Les scénarios hors de l’étendue sont testés

Couverture des variantes

  • Invite canonique
  • Variante de langage naturel
  • Sonde de robustesse

Cas de périphérie

  • Invites très courtes
  • Invites très longues
  • Demandes ambiguës
  • Informations manquantes
  • Demandes non valides ou non prises en charge

Personnalisation (le cas échéant)

  • Différents emplacements d’utilisateur
  • Différents niveaux d’occupation
  • Différents rôles ou services

Étape suivante