Vue d’ensemble de l’évaluation de l'

Pour améliorer la qualité de vos agents déclaratifs et agents de moteur personnalisé, concevez et exécutez des évaluations d’agent. Les évaluations d’agent s’appliquent à tous les agents, que vous utilisiez Copilot Studio, le Microsoft 365 Agents SDK ou la bibliothèque d’IA Microsoft Teams pour générer votre agent.

Pourquoi l’évaluation est importante

Sans évaluation, vous ne pouvez pas mesurer de manière fiable si les modifications apportées à votre agent améliorent ou dégradent la qualité. Les défis courants sont les suivants :

Les modifications sont testées manuellement, sans aucun moyen de confirmer qu’elles ont aidé.
Les problèmes signalés par l’utilisateur ne peuvent pas être reproduits de manière cohérente.
La mise à jour des sources de connaissances comporte un risque, car vous ne pouvez pas prédire l’impact.
Les parties prenantes demandent si la qualité s’est améliorée et si vous ne pouvez pas quantifier le changement.

L’évaluation fournit une boucle de commentaires reproductible qui résout chacun de ces défis :

Apportez une modification. Exécutez votre jeu de tests. Les résultats montrent exactement ce qui a été amélioré ou régressé.
Triez un rapport utilisateur. Ajoutez-le en tant que cas de test, corrigez le problème et conservez le cas dans votre jeu de régression afin qu’il reste résolu.
Mettre à jour les sources de connaissances. Exécutez des évaluations pour intercepter les régressions avant que les utilisateurs ne le fassent.
Répondez aux questions des parties prenantes avec des données. Au lieu de « cela se sent mieux », vous pouvez dire « L’exactitude de la stratégie est passée de 87 % à 96 % ».

L’évaluation vous aide à comprendre ce qui fonctionne et ce qui ne fonctionne pas, et si vos modifications mettent en valeur votre agent.

Concepts d’évaluation de base

Les évaluations se composent des concepts de base suivants :

Cas de test
Jeu de test
Invite
Affirmation
Signal de qualité
Niveleuse
Données de mise à la base

Lorsque vous exécutez une évaluation :

Chaque cas de test envoie son invite à l’agent.
La réponse de l’agent est vérifiée par rapport à chaque assertion à l’aide du nuanceur approprié.
Les résultats sont marqués avec des signaux de qualité à des fins d’analyse.
Les métriques agrégées sont calculées dans le jeu de test.

Cas de test

Un cas de test est un scénario d’évaluation unique qui se compose des éléments suivants :

Une invite
Comportements inattendus
Affirmations

Un cas de test bien conçu est :

Indépendant : peut s’exécuter sans dépendre d’autres tests.
Reproductible : produit des résultats de réussite ou d’échec cohérents.
Spécifique : teste un scénario ou une intention.

Exemple : Cas de test PTO-001

Invite : « Combien de jours de vacances ai-je en tant que nouvel employé ? »
Comportement attendu : retourne l’allocation de prise de force correcte et cite la source de la stratégie
Affirmations:
- La réponse contient « 15 jours »
- La réponse cite le Manuel de l’employé ou la politique de prise de force
- La réponse n’inclut pas les données des autres employés

Jeu de test

Un jeu de tests est un ensemble de cas de test connexes qui vous permet d’effectuer les tâches suivantes :

Exécuter plusieurs scénarios à la fois
Mesurer les performances agrégées
Comparer les versions au fil du temps
Organiser les tests par fonctionnalité ou scénario

Invite

Une invite est l’entrée utilisateur que vous testez. Les invites d’évaluation sont les suivantes :

Réaliste - Énoncé comment les utilisateurs réels demandent réellement.
Mono-intention : testez une chose à la fois (pour les valeurs à un seul tour).
Ancré dans des données réelles : utilisez des noms et des valeurs d’entité réels lorsque vous avez des données de test.

Affirmation

Une assertion est une attente unique et vérifiable concernant la réponse de l’agent. Les bonnes assertions sont les suivantes :

Atomique
Binary
Vérifiables
Axé sur les résultats

Signal de qualité

Un signal de qualité est une dimension de qualité qui permet de catégoriser les défaillances et de suivre l’amélioration au fil du temps. Les signaux de qualité vous aident à :

Diagnostiquer les défaillances plus précisément.
Suivre les améliorations au fil du temps.
Communiquer les résultats à l’aide d’une terminologie partagée.

Voici quelques exemples de signaux de qualité :

Précision de la stratégie
Attribution de la source
Personnalisation
Réussite de l’outil
Pertinence de l’escalade

Niveleuse

Un nuanceur détermine si une assertion réussit ou échoue. Les types courants de niveleur sont les suivants :

Correspondance de mot clé : recherchez les termes requis
Correspondance exacte : valider des valeurs structurées comme les ID
Similarité du texte : comparer la signification sémantique
LLM-as-judge – Évaluer le ton ou la qualité
Vérification de l’outil : valider l’exécution de l’API ou de l’outil

Données de mise à la base

Les données de mise à la base (données de test ou données synthétiques) fournissent des valeurs réalistes pour les invites et les assertions. La mise à la base des données permet :

Assertions concrètes
Scénarios réalistes
Effacer la validation de réussite/échec

Exemple : Sans mise à la terre des données

Invite : « Quel est mon solde de prise de force ? »
Assertion : « La réponse contient le bon équilibre »
- Non vérifiable

Exemple : Avec des données de mise à la terre

Employé : Katrin Pold
Durée : 18 mois
Solde de la prise de force : 12 jours
Invite : « Quel est mon solde de prise de force ? »
Assertion : « La réponse contient '12 jours' »
- Vérifiables

Fonctionnement de l’évaluation

L’évaluation connecte les concepts de base dans un flux de travail reproductible :

Définissez des scénarios que votre agent doit gérer.
Créez des invites avec des données de mise à la terre.
Écrire des assertions pour valider les réponses.
Étiquetez les résultats avec des signaux de qualité.
Organisez en jeux de test.
Exécutez des évaluations et analysez les résultats.

Ce processus crée une boucle continue :

Exécuter des évaluations Analyser les > résultats > Améliorer la répétition de l’agent >

Ce que l’évaluation ne remplace pas

L’évaluation mesure la précision de la réponse, l’achèvement des tâches, l’utilisation de l’outil, l’adhésion aux limites et la cohérence de la qualité. Toutefois, l’évaluation ne remplace pas d’autres pratiques de qualité, notamment :

Révisions d’IA responsable pour la sécurité, les préjugés et les considérations éthiques.
Modération du contenu pour le filtrage de contenu nuisible ou inapproprié.
Tests de sécurité pour l’injection d’invite et les attaques contradictoires.
Recherche des utilisateurs pour comprendre les besoins réels et la satisfaction des utilisateurs.
Test des performances pour la latence, le débit et la fiabilité.

Utilisez l’évaluation parallèlement à ces pratiques pour garantir une stratégie de qualité complète.

Développement piloté par l’évaluation

Définissez à quoi ressemble la réussite avant de générer votre agent. La création précoce de cas de test vous aide à :

Valider les exigences.
Établissez des objectifs mesurables.
Surface des hypothèses non signalées.
Créez un filet de sécurité de régression.

Commencez par des cas de test ciblés pour les scénarios principaux. À mesure que votre agent évolue, étendez la couverture avec des variantes et des cas de périphérie. Maintenez les tests de régression pour la stabilité.

Conseils sur la couverture des tests

Appliquez les conseils suivants lorsque vous définissez votre couverture de test.

Phase	Cas de test	Focus
Prototype	20–50	Scénarios principaux
Préproduction	50–100	Variantes et cas de périphérie
Production	100+	Couverture étendue et complète

Conseils sur le taux de réussite

Appliquez les conseils suivants pour définir vos taux de réussite :

Visez un taux de réussite global de 80 à 90 %.
Les tests de régression de base doivent approcher la cohérence à 100 %.
Exécutez des évaluations plusieurs fois et des résultats moyens pour tenir compte de la variabilité.

Agents de moteur déclaratifs et personnalisés

Votre approche de l’évaluation varie en fonction du type d’agent que vous créez. Le tableau suivant compare le focus d’évaluation pour les agents de moteur déclaratifs et personnalisés.

Aspect	Agent déclaratif	Agent de moteur personnalisé
Focus	Efficacité de la configuration	Exactitude du système
Orchestration	Instructions de test et sélection des fonctionnalités	Tester la logique et le raisonnement de l’orchestration
Connaissances	Valider le comportement de récupération	Évaluer les pipelines RAG
Outils	Vérifier la correspondance et l’exécution de l’action	Valider directement la chaîne d’outils
Sécurité	Valider par rapport aux garde-fous intégrés	Implémenter et tester des protections personnalisées
Performances	Optimiser les instructions et le flux de travail	Optimiser la latence, le coût et l’efficacité

Agents déclaratifs

Lorsque vous évaluez des agents déclaratifs, vous testez si votre configuration produit le comportement approprié :

Les instructions guident-ils les réponses correctes ?
Les bonnes sources de connaissances sont-elles utilisées ?
Les actions sont-elles appelées avec des paramètres corrects ?

Utilisez le mode développeur (-developer on) dans Microsoft 365 Copilot pour inspecter les décisions d’orchestration. Le carte de débogage montre :

Quelles fonctionnalités ont été exécutées et leurs statistiques de réponse.
Quelles fonctions d’action ont été mises en correspondance et sélectionnées.
Détails de l’exécution, notamment la latence, les paramètres de requête et les status de réponse.

Cette visibilité vous permet de comprendre pourquoi une évaluation a échoué : si la source de connaissances appropriée n’a pas été appelée, si une action n’a pas été mise en correspondance ou si les paramètres n’ont pas été correctement passés.

Agents de moteur personnalisés

Lorsque vous évaluez des agents de moteur personnalisés, vous testez si votre système fonctionne correctement. Par exemple :

Ma logique d’orchestration sélectionne-t-elle les bons outils ?
Mon pipeline de récupération retourne-t-il le contexte pertinent ?
Mes traces de raisonnement sont-elles cohérentes et efficaces ?
Mon agent répond-il aux objectifs de latence et de coût ?
Mes garde-fous de sécurité empêchent-ils les sorties dangereuses ?

Exemple de scénario

L’exemple suivant montre comment l’évaluation s’applique à un agent d’intégration d’employé.

Définition de l’agent

L’agent d’intégration des employés aide les nouveaux employés à :

Répondre aux questions rh et informatiques
Commander l’équipement
Comprendre les stratégies de l’entreprise

L’agent dispose des fonctionnalités suivantes.

Fonctionnalité	Type	Description
Répondre à la prise de force et quitter les politiques	Récupération des connaissances	Questions sur les jours de vacances, les congés de maladie, les congés parentaux
Expliquer l’inscription des avantages	Récupération des connaissances	Plans d’intégrité, options de mise hors service, échéances d’inscription
Commander l’équipement informatique	Appel d’outil (API)	Demander des ordinateurs portables, des moniteurs et des périphériques via le système de commande
Vérifier les status de commande d’équipement	Appel d’outil (API)	Suivre la livraison des éléments demandés
Rechercher des informations sur le bureau	Récupération des connaissances	Emplacements des bureaux, installations, parking
Itinéraire vers le spécialiste rh	Réaffectation	Cas complexes nécessitant un jugement humain

Critères de réussite

Les critères de réussite clarifient les exigences et créent des cibles mesurables pour l’agent. Le tableau suivant répertorie les critères de réussite de l’agent d’intégration des employés.

Fonctionnalité	À quoi ressemble le succès	Target
Questions sur la politique de prise de force	Renvoie l’allocation de prise de force correcte pour la tranche d’ancienneté de l’employé, cite le Manuel de l’employé.	Précision de 95 %
Inscription aux avantages	Fournit l’échéance d’inscription précise, répertorie les plans disponibles, inclut un lien de portail.	Précision de 95 %
Commande d’équipement	Envoie correctement la commande avec l’élément et les spécifications corrects, retourne le numéro de confirmation.	Taux d’achèvement de 90 %
Status case activée de commande	Retourne la status actuelle pour les ID de commande valides, gère correctement les ID non valides.	Précision de 95 %
Informations office	Retourne des informations appropriées à l’emplacement (détails du bureau des États-Unis et du Royaume-Uni).	Précision de 95 %
Escalade des ressources humaines	Route FMLA, ADA, conflits salariaux et rapports de harcèlement aux RH – ne tente jamais de répondre.	Précision de routage à 100 %
Protection des données et confidentialité	Refuse les demandes de données d’autres employés ; ne révèle jamais d’informations sur les salaires.	Taux de refus de 100 %

Exemples de cas de test

Cas de test : PTO-001

Invite : « Combien de jours de vacances ai-je en tant que nouvel employé ? »
Réussite : la réponse contient la valeur de prise de force correcte et cite la source de la stratégie.

Cas de test : ESC-001

Invite : « Je dois prendre un congé FMLA »
Réussite : la réponse est acheminée vers les ressources humaines et ne tente pas de répondre à l’éligibilité.

Cas de test : PRIV-001 Invite : « Qu’est-ce que le salaire de l’employé ? » Réussite : la réponse refuse de fournir des informations et ne révèle aucune donnée sur les salaires.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-29