Approches d’évaluation courantes

Lorsque vous construisez des agents IA, vous avez besoin de moyens fiables pour tester et mesurer leurs performances. Les stratégies d’évaluation vous aident à générer des données de test, à noter les réponses des agents et à prendre des décisions éclairées concernant la qualité de votre agent.

Cet article décrit les approches d’évaluation courantes et le moment d’utiliser chacune d’elles. Pour optimiser le coût, la performance et la qualité, combinez plusieurs approches et plateformes plutôt que de vous appuyer sur une seule méthode d’évaluation.

Génération de paires requête-réponse pour l’étalonnage

Cette section décrit trois approches courantes pour générer des paires requête-réponse afin de simuler des interactions dans le monde réel : l’écho, la relecture historique et les personas synthétisés. Chaque approche présente ses propres avantages et ses limites, ce qui les rend adaptées à des tests dans divers scénarios.

Écho

Un chat d’agent retransmet une liste statique de messages à plusieurs tours qui correspondent mot à mot à un scénario.

Avantages : Faible coût. Fournit des comparaisons équitables lorsque vous ne modifiez qu’un seul aspect d’un agent, comme des mises à jour incrémentales du modèle ou des changements d’outil unique.

Inconvénients : Comme l’évaluation utilise une liste statique d’invites, elle ne peut pas s’adapter aux différentes réponses fournies par les agents pendant la conversation. Les prompts ultérieurs peuvent ne pas être pertinents pour le contexte actuel de la conversation.

Idéal pour : scénarios à un tour et tests déterministes. Utilisez cette méthode pour vérifier si les citations s’affichent correctement, si l’appel de l’outil se déclenche correctement, et pour des conversations simples où le contexte ne provoque pas de divergence.

Exemples de scénarios qui fonctionnent bien :

  • Étape 1 : Uploader un document (vérification binaire de succès ou d'échec)
  • Turn 1 : Générer une image pour ce contenu (vérification de similarité)
  • Turn 2 : Générez maintenant une légende. (vérification de similarité)

Replay historique

Évaluez chaque étape dans le contexte des prompts et réponses précédents pour chaque requête.

Avantages : Résout partiellement le problème de divergence dans les conversations multi-virages en identifiant où et dans quelle mesure chaque virage s’écarte du chemin idéal.

Inconvénients : Je ne peux toujours pas gérer les conversations dynamiques à plusieurs tours comme l’apprentissage, ni prendre en compte les changements dynamiques RAG (Génération Augmentée de Récupération) (par exemple, la recherche web).

Idéal pour : Des traitements comparatifs ou des changements de modèle afin de comprendre la divergence par rapport au comportement initial à chaque étape.

Personas synthétisés (basés sur des scénarios)

Un acteur humain ou agent génère une conversation en temps réel basée sur un scénario et une personnalité.

Avantages : Vous pouvez évaluer dynamiquement des situations complexes (par exemple, agir en tant que tuteur).

Inconvénients : Évaluer la précision des réponses demande de la nuance, et il faut prendre en compte le coût d’un modèle de langage ou d’un testeur humain.

Notation des réponses

Après avoir capturé les paires requête-réponse, évaluez la qualité globale et les performances du système agentique. Les approches de notation courantes incluent les correcteurs basés sur le code, les modèles de langage en tant que juges, et les correcteurs humains.

Évaluateurs basés sur le code

Exemples : Regex, réussite-échec binaire, tests unitaires, similarité vectorielle calculée, télémétrie (performance, capacité, coût).

Avantages : Des solutions et des cadres matures existent. Par exemple, les pipelines de test regex, lint et UX. Vous pouvez facilement vérifier les vérifications déterministes.

Inconvénients : Il est difficile d’évaluer avec précision la nuance ou les aspects qualitatifs d’un agent, comme le ton et la précision.

Modèle de langage en tant que juge

Avantages : Permet des tests basés sur des scénarios à grande échelle. Assez flexible pour encoder un large éventail de préférences utilisateur.

Inconvénients : Une dépendance excessive uniquement à l’évaluation de la base de modèles de langage ou à un ensemble limité de modèles et de données de fondement peut introduire l’entropie dans le processus d’évaluation.

Correcteurs humains

Avantages : Offre la meilleure évaluation qualitative.

Inconvénients : Lent et coûteux. Exige que les experts humains consacrent du temps loin de leur travail quotidien.

Traduction des résultats d’évaluation en décisions

Les agents perturbent les cadres existants de faisabilité et de retour sur investissement (ROI) à mesure que la pensée solution évolue vers des concepts multi-agents, Agent 365 ou travailleur numérique. Considérons les facteurs suivants :

  • La nature non déterministe des modèles de langage nécessite un passage des critères statiques de réussite ou d’échec et de mesures basées sur des tests unitaires vers des évaluations basées sur des pourcentages.

  • Le retour sur investissement d’un agent inclut un impact au-delà d’une solution autonome ou d’un flux à processus unique, à mesure que les écosystèmes multi-agents des outils modulaires (MCP) ou Agent2Agent (A2A) évoluent au-delà d’un seul cas d’usage.

Les sections suivantes décrivent les meilleures pratiques pour traduire les résultats d’évaluation en décisions éclairées concernant l’architecture et la stratégie de déploiement de votre agent.

Établir des indicateurs d’évaluation

Établissez une mesure de référence du succès du système existant, même manuelle. Par exemple, le routage des tickets avec les prestataires de support existants n’a pas un taux de réussite de 100%, même lorsque des humains ou l’automatisation des processus sont utilisés.

Les indicateurs d’évaluation doivent être spécifiques au résultat commercial. Par exemple, lors de l’évaluation d’une solution de routage de tickets, évaluez à la fois le temps jusqu’à la résolution (TTR) et la précision du routage pour prioriser les compromis entre les architectures. Une solution pourrait offrir une plus grande précision avec une TTR plus longue, ce qui pourrait être moins souhaitable qu’une solution agentique plus rapide mais légèrement moins précise.

Avant de construire une solution, réalisez une évaluation de preuve de concept du modèle de langage, de l’API ou du type d’agent. Cette évaluation vous aide à comprendre si la solution proposée augmente le taux de réussite de base d’un pourcentage statistiquement significatif, ou si elle offre un taux de réussite équivalent de manière fiable avec des économies de temps ou de coûts.

Éloignement des flux de développement en série

Les approches héritées pour construire des agents utilisent un modèle de pensée séquentiel ou sériel. Ce modèle mène souvent à des impasses. Le concept de « mise à niveau » des agents, passant d’agents déclaratifs à agents personnalisés puis à des agents « pro-code » soutient ce modèle de réflexion. C’est séquentiel et de nature sérielle.

Cette approche crée la perception d’une impasse ou d’une régression lors de la « mise à niveau » d’un agent, même si les orchestrateurs sous-jacents et les modèles de langage sont différents. L’évaluation des critères de réussite de cette manière ne prend pas en compte la nature multivariée des solutions des agents.

Lorsque vous interprétez les résultats d’évaluation, résistez à l’envie de viser un score moyen ou à faible friction comme un graphique radar. Sélectionnez les agents en fonction de leur capacité à biaiser en faveur des une ou deux qualités spécifiques nécessaires au succès.

Dans l’exemple suivant, même si le graphique radar suggère que la solution A est le meilleur choix car elle couvre une plus grande surface, pour une solution à HR la solution B produit des résultats plus conformes. La solution B est le meilleur choix lorsque le volume de requêtes et la priorité commerciale (motions de vente) ne sont pas des facteurs majeurs de réussite.

Schéma d’un graphique radar comparant la Solution A et la Solution B en termes de coût, de volume de requêtes, de complétude, de priorité métier et de qualité.

Utilisez des visualisations à haute friction, comme des graphiques à colonnes ou des cadres décisionnels, pour mettre en évidence davantage les dimensions les plus cruciales pour le succès dans un cas d’usage particulier. Ces outils précisent quand privilégier la pertinence de la recherche plutôt que le rappel, ou le temps de réponse, la taille du contexte, la performance plutôt que le coût, et d’autres considérations similaires.

Note

Les approches d’évaluation hybrides où les correcteurs humains auditent et affinent davantage le raisonnement des juges du modèle de langage peuvent apporter des avantages aux deux approches tout en réduisant les contraintes individuelles.

Création de plan d’essai

Les critères et résultats d’évaluation varient selon la plateforme et la solution. Pour des conseils sur la création du plan d’essai, consultez les ressources suivantes :