Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Pour améliorer la qualité de vos agents déclaratifs et agents de moteur personnalisé, concevez et exécutez des évaluations d’agent. Les évaluations d’agent s’appliquent à tous les agents, que vous utilisiez Copilot Studio, le Microsoft 365 Agents SDK ou la bibliothèque d’IA Microsoft Teams pour générer votre agent.
Pourquoi l’évaluation est importante
Sans évaluation, vous ne pouvez pas mesurer de manière fiable si les modifications apportées à votre agent améliorent ou dégradent la qualité. Les défis courants sont les suivants :
- Les modifications sont testées manuellement, sans aucun moyen de confirmer qu’elles ont aidé.
- Les problèmes signalés par l’utilisateur ne peuvent pas être reproduits de manière cohérente.
- La mise à jour des sources de connaissances comporte un risque, car vous ne pouvez pas prédire l’impact.
- Les parties prenantes demandent si la qualité s’est améliorée et si vous ne pouvez pas quantifier le changement.
L’évaluation fournit une boucle de commentaires reproductible qui résout chacun de ces défis :
- Apportez une modification. Exécutez votre jeu de tests. Les résultats montrent exactement ce qui a été amélioré ou régressé.
- Triez un rapport utilisateur. Ajoutez-le en tant que cas de test, corrigez le problème et conservez le cas dans votre jeu de régression afin qu’il reste résolu.
- Mettre à jour les sources de connaissances. Exécutez des évaluations pour intercepter les régressions avant que les utilisateurs ne le fassent.
- Répondez aux questions des parties prenantes avec des données. Au lieu de « cela se sent mieux », vous pouvez dire « L’exactitude de la stratégie est passée de 87 % à 96 % ».
L’évaluation vous aide à comprendre ce qui fonctionne et ce qui ne fonctionne pas, et si vos modifications mettent en valeur votre agent.
Concepts d’évaluation de base
Les évaluations se composent des concepts de base suivants :
- Cas de test
- Jeu de test
- Invite
- Affirmation
- Signal de qualité
- Niveleuse
- Données de mise à la base
Lorsque vous exécutez une évaluation :
- Chaque cas de test envoie son invite à l’agent.
- La réponse de l’agent est vérifiée par rapport à chaque assertion à l’aide du nuanceur approprié.
- Les résultats sont marqués avec des signaux de qualité à des fins d’analyse.
- Les métriques agrégées sont calculées dans le jeu de test.
Cas de test
Un cas de test est un scénario d’évaluation unique qui se compose des éléments suivants :
- Une invite
- Comportements inattendus
- Affirmations
Un cas de test bien conçu est :
- Indépendant : peut s’exécuter sans dépendre d’autres tests.
- Reproductible : produit des résultats de réussite ou d’échec cohérents.
- Spécifique : teste un scénario ou une intention.
Exemple : Cas de test PTO-001
- Invite : « Combien de jours de vacances ai-je en tant que nouvel employé ? »
- Comportement attendu : retourne l’allocation de prise de force correcte et cite la source de la stratégie
- Affirmations:
- La réponse contient « 15 jours »
- La réponse cite le Manuel de l’employé ou la politique de prise de force
- La réponse n’inclut pas les données des autres employés
Jeu de test
Un jeu de tests est un ensemble de cas de test connexes qui vous permet d’effectuer les tâches suivantes :
- Exécuter plusieurs scénarios à la fois
- Mesurer les performances agrégées
- Comparer les versions au fil du temps
- Organiser les tests par fonctionnalité ou scénario
Invite
Une invite est l’entrée utilisateur que vous testez. Les invites d’évaluation sont les suivantes :
- Réaliste - Énoncé comment les utilisateurs réels demandent réellement.
- Mono-intention : testez une chose à la fois (pour les valeurs à un seul tour).
- Ancré dans des données réelles : utilisez des noms et des valeurs d’entité réels lorsque vous avez des données de test.
Affirmation
Une assertion est une attente unique et vérifiable concernant la réponse de l’agent. Les bonnes assertions sont les suivantes :
- Atomique
- Binary
- Vérifiables
- Axé sur les résultats
Signal de qualité
Un signal de qualité est une dimension de qualité qui permet de catégoriser les défaillances et de suivre l’amélioration au fil du temps. Les signaux de qualité vous aident à :
- Diagnostiquer les défaillances plus précisément.
- Suivre les améliorations au fil du temps.
- Communiquer les résultats à l’aide d’une terminologie partagée.
Voici quelques exemples de signaux de qualité :
- Précision de la stratégie
- Attribution de la source
- Personnalisation
- Réussite de l’outil
- Pertinence de l’escalade
Niveleuse
Un nuanceur détermine si une assertion réussit ou échoue. Les types courants de niveleur sont les suivants :
- Correspondance de mot clé : recherchez les termes requis
- Correspondance exacte : valider des valeurs structurées comme les ID
- Similarité du texte : comparer la signification sémantique
- LLM-as-judge – Évaluer le ton ou la qualité
- Vérification de l’outil : valider l’exécution de l’API ou de l’outil
Données de mise à la base
Les données de mise à la base (données de test ou données synthétiques) fournissent des valeurs réalistes pour les invites et les assertions. La mise à la base des données permet :
- Assertions concrètes
- Scénarios réalistes
- Effacer la validation de réussite/échec
Exemple : Sans mise à la terre des données
- Invite : « Quel est mon solde de prise de force ? »
- Assertion : « La réponse contient le bon équilibre »
- Non vérifiable
Exemple : Avec des données de mise à la terre
- Employé : Katrin Pold
- Durée : 18 mois
- Solde de la prise de force : 12 jours
- Invite : « Quel est mon solde de prise de force ? »
- Assertion : « La réponse contient '12 jours' »
- Vérifiables
Fonctionnement de l’évaluation
L’évaluation connecte les concepts de base dans un flux de travail reproductible :
- Définissez des scénarios que votre agent doit gérer.
- Créez des invites avec des données de mise à la terre.
- Écrire des assertions pour valider les réponses.
- Étiquetez les résultats avec des signaux de qualité.
- Organisez en jeux de test.
- Exécutez des évaluations et analysez les résultats.
Ce processus crée une boucle continue :
Exécuter des évaluations Analyser les > résultats > Améliorer la répétition de l’agent >
Ce que l’évaluation ne remplace pas
L’évaluation mesure la précision de la réponse, l’achèvement des tâches, l’utilisation de l’outil, l’adhésion aux limites et la cohérence de la qualité. Toutefois, l’évaluation ne remplace pas d’autres pratiques de qualité, notamment :
- Révisions d’IA responsable pour la sécurité, les préjugés et les considérations éthiques.
- Modération du contenu pour le filtrage de contenu nuisible ou inapproprié.
- Tests de sécurité pour l’injection d’invite et les attaques contradictoires.
- Recherche des utilisateurs pour comprendre les besoins réels et la satisfaction des utilisateurs.
- Test des performances pour la latence, le débit et la fiabilité.
Utilisez l’évaluation parallèlement à ces pratiques pour garantir une stratégie de qualité complète.
Développement piloté par l’évaluation
Définissez à quoi ressemble la réussite avant de générer votre agent. La création précoce de cas de test vous aide à :
- Valider les exigences.
- Établissez des objectifs mesurables.
- Surface des hypothèses non signalées.
- Créez un filet de sécurité de régression.
Commencez par des cas de test ciblés pour les scénarios principaux. À mesure que votre agent évolue, étendez la couverture avec des variantes et des cas de périphérie. Maintenez les tests de régression pour la stabilité.
Conseils sur la couverture des tests
Appliquez les conseils suivants lorsque vous définissez votre couverture de test.
| Phase | Cas de test | Focus |
|---|---|---|
| Prototype | 20–50 | Scénarios principaux |
| Préproduction | 50–100 | Variantes et cas de périphérie |
| Production | 100+ | Couverture étendue et complète |
Conseils sur le taux de réussite
Appliquez les conseils suivants pour définir vos taux de réussite :
- Visez un taux de réussite global de 80 à 90 %.
- Les tests de régression de base doivent approcher la cohérence à 100 %.
- Exécutez des évaluations plusieurs fois et des résultats moyens pour tenir compte de la variabilité.
Agents de moteur déclaratifs et personnalisés
Votre approche de l’évaluation varie en fonction du type d’agent que vous créez. Le tableau suivant compare le focus d’évaluation pour les agents de moteur déclaratifs et personnalisés.
| Aspect | Agent déclaratif | Agent de moteur personnalisé |
|---|---|---|
| Focus | Efficacité de la configuration | Exactitude du système |
| Orchestration | Instructions de test et sélection des fonctionnalités | Tester la logique et le raisonnement de l’orchestration |
| Connaissances | Valider le comportement de récupération | Évaluer les pipelines RAG |
| Outils | Vérifier la correspondance et l’exécution de l’action | Valider directement la chaîne d’outils |
| Sécurité | Valider par rapport aux garde-fous intégrés | Implémenter et tester des protections personnalisées |
| Performances | Optimiser les instructions et le flux de travail | Optimiser la latence, le coût et l’efficacité |
Agents déclaratifs
Lorsque vous évaluez des agents déclaratifs, vous testez si votre configuration produit le comportement approprié :
- Les instructions guident-ils les réponses correctes ?
- Les bonnes sources de connaissances sont-elles utilisées ?
- Les actions sont-elles appelées avec des paramètres corrects ?
Utilisez le mode développeur (-developer on) dans Microsoft 365 Copilot pour inspecter les décisions d’orchestration. Le carte de débogage montre :
- Quelles fonctionnalités ont été exécutées et leurs statistiques de réponse.
- Quelles fonctions d’action ont été mises en correspondance et sélectionnées.
- Détails de l’exécution, notamment la latence, les paramètres de requête et les status de réponse.
Cette visibilité vous permet de comprendre pourquoi une évaluation a échoué : si la source de connaissances appropriée n’a pas été appelée, si une action n’a pas été mise en correspondance ou si les paramètres n’ont pas été correctement passés.
Agents de moteur personnalisés
Lorsque vous évaluez des agents de moteur personnalisés, vous testez si votre système fonctionne correctement. Par exemple :
- Ma logique d’orchestration sélectionne-t-elle les bons outils ?
- Mon pipeline de récupération retourne-t-il le contexte pertinent ?
- Mes traces de raisonnement sont-elles cohérentes et efficaces ?
- Mon agent répond-il aux objectifs de latence et de coût ?
- Mes garde-fous de sécurité empêchent-ils les sorties dangereuses ?
Exemple de scénario
L’exemple suivant montre comment l’évaluation s’applique à un agent d’intégration d’employé.
Définition de l’agent
L’agent d’intégration des employés aide les nouveaux employés à :
- Répondre aux questions rh et informatiques
- Commander l’équipement
- Comprendre les stratégies de l’entreprise
L’agent dispose des fonctionnalités suivantes.
| Fonctionnalité | Type | Description |
|---|---|---|
| Répondre à la prise de force et quitter les politiques | Récupération des connaissances | Questions sur les jours de vacances, les congés de maladie, les congés parentaux |
| Expliquer l’inscription des avantages | Récupération des connaissances | Plans d’intégrité, options de mise hors service, échéances d’inscription |
| Commander l’équipement informatique | Appel d’outil (API) | Demander des ordinateurs portables, des moniteurs et des périphériques via le système de commande |
| Vérifier les status de commande d’équipement | Appel d’outil (API) | Suivre la livraison des éléments demandés |
| Rechercher des informations sur le bureau | Récupération des connaissances | Emplacements des bureaux, installations, parking |
| Itinéraire vers le spécialiste rh | Réaffectation | Cas complexes nécessitant un jugement humain |
Critères de réussite
Les critères de réussite clarifient les exigences et créent des cibles mesurables pour l’agent. Le tableau suivant répertorie les critères de réussite de l’agent d’intégration des employés.
| Fonctionnalité | À quoi ressemble le succès | Target |
|---|---|---|
| Questions sur la politique de prise de force | Renvoie l’allocation de prise de force correcte pour la tranche d’ancienneté de l’employé, cite le Manuel de l’employé. | Précision de 95 % |
| Inscription aux avantages | Fournit l’échéance d’inscription précise, répertorie les plans disponibles, inclut un lien de portail. | Précision de 95 % |
| Commande d’équipement | Envoie correctement la commande avec l’élément et les spécifications corrects, retourne le numéro de confirmation. | Taux d’achèvement de 90 % |
| Status case activée de commande | Retourne la status actuelle pour les ID de commande valides, gère correctement les ID non valides. | Précision de 95 % |
| Informations office | Retourne des informations appropriées à l’emplacement (détails du bureau des États-Unis et du Royaume-Uni). | Précision de 95 % |
| Escalade des ressources humaines | Route FMLA, ADA, conflits salariaux et rapports de harcèlement aux RH – ne tente jamais de répondre. | Précision de routage à 100 % |
| Protection des données et confidentialité | Refuse les demandes de données d’autres employés ; ne révèle jamais d’informations sur les salaires. | Taux de refus de 100 % |
Exemples de cas de test
Cas de test : PTO-001
- Invite : « Combien de jours de vacances ai-je en tant que nouvel employé ? »
- Réussite : la réponse contient la valeur de prise de force correcte et cite la source de la stratégie.
Cas de test : ESC-001
- Invite : « Je dois prendre un congé FMLA »
- Réussite : la réponse est acheminée vers les ressources humaines et ne tente pas de répondre à l’éligibilité.
Cas de test : PRIV-001 Invite : « Qu’est-ce que le salaire de l’employé ? » Réussite : la réponse refuse de fournir des informations et ne révèle aucune donnée sur les salaires.