Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Ce guide de référence fournit des informations détaillées sur les définitions d’échelle de grade, les formules de calcul d’alignement, les exemples de rubriques pour différents cas d’usage, les thèmes d’évaluation et un glossaire des termes clés. Utilisez-la pour créer et affiner les rubriques d’évaluation des réponses générées par l’IA dans Copilot Studio.
Définitions de l'échelle de notation
Utilisez l’échelle de 5 points standard dans toutes les rubriques :
| Grade | Étiquette | Définition |
|---|---|---|
| 5 | Exemplaire | Satisfait pleinement à toutes les attentes ; professionnel et poli ; aucune amélioration nécessaire ; prêt à être utilisé |
| 4 | Fort | Répond à toutes les exigences majeures avec des domaines mineurs d’amélioration ; haute qualité globale ; principalement prêt |
| 3 | Acceptable | Répond aux attentes minimales, mais manque de profondeur ou de raffinement ; fonctionnellement adéquat ; a besoin d'être amélioré |
| 2 | Faible | Contient des lacunes significatives dans la qualité, la structure ou la pertinence ; a besoin d’une amélioration significative |
| 1 | Besoin d'amélioration | Ne répond pas aux attentes ; problèmes majeurs liés à l’exactitude, à la pertinence, au ton ou à l’exhaustivité |
Formule de calcul d’alignement
Voici la formule permettant de calculer l’alignement entre les notes d’IA et les notes humaines pour les cas de test individuels, et comment analyser le désalignement directionnel.
Alignement de cas de test individuel
Pour chaque cas de test :
Aligned = (AI Grade == Human Grade)
Misaligned = (AI Grade ≠ Human Grade)
Calcul d’alignement pour les cas de test individuels
Pour chaque cas de test, calculez l’alignement entre les réponses générées par l’IA et les attentes humaines à l’aide de l’interpolation linéaire de 100% (correspondance parfaite) à 0% (au maximum différent).
Interprétation :
- Lorsque la note de l’IA = note de l’humain, l’alignement = 100 %
- À mesure que la différence de grade augmente, l’alignement diminue linéairement
- La différence maximale sur une échelle de 1 à 5 est de 4 étapes, qui correspond à 0%
Formule :
alignment = 100% * (1 - |AI - Human| / 4)
Matrice d’alignement résultante :
| IA ↓ / Humain → | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|
| 1 | 100 % | 75 % | 50 % | 25 % | 0 % |
| 2 | 75 % | 100 % | 75 % | 50 % | 25 % |
| 3 | 50 % | 75 % | 100 % | 75 % | 50 % |
| 4 | 25 % | 50 % | 75 % | 100 % | 75 % |
| 5 | 0 % | 25 % | 50 % | 75 % | 100 % |
Propriétés :
- Symétrique : l’alignement est identique quelle que soit la valeur attribuée par l’IA ou l’humain
- Diagonale = 100 %: alignement parfait lorsque les notes de l’IA et de l’humain correspondent
- Arêtes éloignées = 0%: décalage maximal lorsque les notes sont à des extrémités opposées de l’échelle
- Interpolation lisse et linéaire : l’alignement diminue uniformément à mesure que la différence augmente
Exemple de calcul :
- Nombre total de cas de test avec des notes humaines : 30
- Cas de test où la note IA = Grade humain : 24
- Alignement % = 24 / 30 × 100% = 80%
Analyse de l’inalignation directionnelle
AI too lenient = Count of (AI Grade > Human Grade)
AI too strict = Count of (AI Grade < Human Grade)
Net bias = (AI too lenient - AI too strict) / Total misaligned cases
Example:
- Note de l'IA > Note humaine : 3 cas (IA trop indulgente)
- Note de l’IA < note de l’humain : 3 cas (IA trop stricte)
- Biais net = (3 - 3) / 6 = 0 (aucun biais systématique)
Exemple de rubrique 1 : Rapport sur les relations des investisseurs
À quoi ressemble une bonne réponse
Évaluez la réponse envoyée par rapport à la réponse d’expert ou à la norme attendue dans les qualités de communication spécifiques à la récupération d'information.
- Clarté : Les informations sont-elles communiquées clairement et logiquement ?
- Pertinence : le contenu correspond-il à ce que les investisseurs attendent ?
- Complétivité : Les principaux facteurs métier et les métriques sont-ils inclus ?
- Cohérence et qualité narrative : l’histoire est-elle cohérente et lisible ?
- Ton professionnel : La réponse ressemble-t-elle à une sortie IR soignée ?
- Insightfulness : Met-il en évidence la signification, les conducteurs ou les risques ?
- Précision par rapport aux attentes : reste-t-elle alignée sur ce qu’une équipe IR considérerait acceptable (pas nécessairement en jugeant de la factualité) ?
Définitions de grade
Voici comment interpréter l'échelle de notation de 1 à 5 pour un rapport IR :
5 : Qualité IR excellente ou professionnelle
Réponse :
- Satisfait pleinement aux attentes d'un rapport de relations investisseurs
- Bien structuré, poli et prêt pour les investisseurs
- Inclut tous les éléments principaux : indicateurs de performance clés (KPI), facteurs de performance, commentaires, insights à l’avenir (le cas échéant) et contexte stratégique
- Le ton est professionnel, en cohérence avec la voix de la communication financière de l'entreprise
- Le flux narratif est logique, avec des explications nettes et concises.
- Aucun détail non pertinent ; utilité élevée des investisseurs
4 : Forte ou haute qualité
Réponse :
- Couvre tous les principaux domaines de contenu pertinents pour les investisseurs
- Principalement bien organisé avec des lacunes mineures ou une légère redondance
- Le ton est professionnel, mais peut-être moins poli que le score 5
- Fournit des insights utiles et des commentaires
- Certains aspects peuvent être améliorés en termes de précision, de clarté ou d'accentuation des principaux facteurs.
3 : Adéquat ou répondant aux attentes minimales du runtime d’intégration
Réponse :
- Communique un contenu correct et pertinent, mais manque de profondeur ou de finition.
- Absence d’un ou deux éléments clés d'IR (par exemple, contexte pour les résultats, les facteurs moteurs ou les risques)
- La narration peut se sentir mécanique ou générique
- Le ton est acceptable, mais pas aussi poli ou convivial pour les investisseurs
- Fournit des informations de base mais des insights limités
2 : Faible ou partiellement adapté
Réponse :
- Contient des lacunes significatives dans la narration, la structure ou la pertinence
- Manque des composants importants pertinents pour les investisseurs, tels que les métriques, les pilotes ou le contexte commercial
- Le ton peut être incohérent ou trop occasionnel
- L’organisation peut se sentir dispersée ou floue
- Fournit peu de valeur réelle à un investisseur ou un professionnel ir
1 : Médiocre ou inadapté à l’utilisation de l’IR
Réponse :
- Manque la plupart des attentes d’un rapport IR
- Non structuré, déroutant ou non pertinent pour les besoins des investisseurs
- Le ton n'est pas professionnel, est trop décontracté ou à connotation marketing.
- Manque de métriques, de facteurs, d’explications ou de présentation trompeuse
- Ne reflète pas les normes de communication IR
Exemple de rubrique 2 : Résumés d’entreprise ou génération de rapport d’état
À quoi ressemble une bonne réponse
Évaluez le rapport soumis sur la façon dont il correspond bien au ton et au style attendus, notamment :
- Professionnalisme : Est-ce qu’il maintient un ton approprié pour l’entreprise ?
- Cohérence : Le ton reste-t-il uniforme tout au long du texte ?
- Alignement vocal : Cela correspond-il à l'entreprise, à l'équipe ou au service IR ?
- Formalité : le niveau de formalité correspond-t-il au type de rapport (par exemple, IR = high, IT weekly = medium) ?
- Clarté et franchise : Est-ce concis, croustillant, sans superflu ?
- Conformité stylistique : est-ce qu’elle suit les modèles attendus : structure à puces, style de résumé exécutif, utilisation des temps, etc.
- Évitement de biais ou d’émotion : pas d'argot, de langage exagéré, ou de ton commercial, sauf si explicitement demandé.
Définitions de grade
Voici comment interpréter l’échelle de 1 à 5 niveaux pour un résumé ou un rapport d’état d’entreprise :
5 : Excellent (cohérent, professionnel, sur marque)
Le rapport :
- Maintient une tonalité parfaitement cohérente tout au long
- Correspond précisément au ton attendu en entreprise, en IR ou en IT
- Utilise une langue professionnelle, polie et confiante
- Suit les conventions de style : paragraphes structurés, puces claires, formulation mesurée
- Évite le battage médiatique, l'exagération, la désinvolture et le langage émotionnel
- Lit comme s’il est écrit par un communicator d’entreprise expérimenté
4 : Forte (variations mineures mais de haute qualité)
Le rapport :
- Correspond au ton attendu presque parfaitement avec une légère dérive
- Utilise principalement des formulations cohérentes, avec de petites traces de verbosité excessive ou d’informalité.
- Suit la plupart des conventions de style, mais pourrait être renforcé
- Ne contient pas de langage non professionnel, mais peut utiliser une formulation légèrement générique ou moins percutante.
3 : Adéquat (acceptable mais pas entièrement cohérent)
Le rapport :
- Affiche une variation notable du ton entre les sections
- Utilise un style qui est principalement correct, mais occasionnellement informel, trop décontracté ou légèrement marketing-like
- Peut ne pas correspondre à la voix attendue de l'entreprise
- La structure est acceptable mais quelque peu incohérente (formats de puces mélangés, formalité inégale)
- Est suffisamment professionnel pour comprendre, mais pas encore adapté aux investisseurs ou aux dirigeants.
2 : Faible (Les problèmes de ton affectent le professionnalisme)
Le rapport :
- Utilise une tonalité fréquemment incohérente ; peut mélanger la langue formelle et décontractée
- Utilise des formulations conversationnelles ou « bavardes » inappropriées pour les rapports
- Affiche des incohérences stylistiques telles que des phrases interminables, des puces désorganisées et des transitions informelles
- Utilise le ton qui peut se présenter comme marketing, émotionnel ou vague
- Ne respecte pas bien le guide de style attendu
1 : Médiocre (non approprié pour l’utilisation du rapport)
Le rapport :
- Adopte un ton très inapproprié qui est trop décontracté, émotionnel, exagéré, ou peu clair
- N’a pas de style cohérent et n’a pas de structure
- Utilise le ton qui sape la crédibilité ou le professionnalisme
- Peut inclure l'argot, les émojis, la dramatisation ou la narration inappropriée pour les rapports.
- Lit comme un e-mail occasionnel ou un billet de blog, pas un rapport formel
Thèmes ou critères d’évaluation
Dimensions d’évaluation courantes que vous pouvez utiliser dans différentes rubriques. Sélectionnez les thèmes les plus pertinents pour votre cas d’usage.
| Critère d’évaluation | Définition | Quand utiliser | Exemple d’entrée utilisateur | Réponse attendue |
|---|---|---|---|---|
| Précision | L’information est exactement correcte ou les données proviennent de la source de vérité de base (Q&A, récupération, rapports). | Lorsque l’exactitude des faits est essentielle (par exemple, les données financières, les spécifications techniques). | Questions avec des réponses vérifiables (par exemple, « Qu’est-ce que la politique RTD ? ») | Réponses factuelment correctes ; tous les détails précis. |
| Fondement ou fidélité | La réponse est basée uniquement sur les connaissances fournies ou les données récupérées ; aucune information incorrecte. | Lorsque l’agent synthétise ou référence le contenu de la Base de connaissances. | Demandes nécessitant des preuves ou des citations. | Réponses ancrées avec citations ; pas de faits composés. |
| Exhaustivité | La réponse traite toutes les parties, sections ou étapes d’une tâche. | Lorsque la sortie doit inclure plusieurs parties (procédure, génération de rapports). | Questions ou requêtes en plusieurs parties (par exemple, étapes d’intégration). | La réponse traite tous les éléments requis. |
| Relevance | Les informations doivent être spécifiques à la requête de l’utilisateur et rester sur la rubrique. | Lorsque l’étendue de sortie doit être étroite (par exemple, une stratégie unique). | Invitations avec une intention ciblée. | Réponses concises et ciblées ; exclut les informations non liées. |
| Cohérence | L’agent fournit la même sortie pour les requêtes équivalentes ou répétées. | Évaluez toujours l’AQ et déterminez la répétabilité. | Requêtes répétées. | Réponses identiques ou quasi-identiques. |
| Clarté et cohérence | La sortie est clairement écrite, structurée logiquement et facile à comprendre. | Toujours pour la génération ; garantit la lisibilité humaine. | Toute invite de génération de contenu. | Grammaire correcte, cohérente, texte fluide. |
| Terminologie ou conformité | Utilisation cohérente des normes de terminologie ou de formulation requises. | Lorsque la marque ou le langage de domaine est important (par exemple, RH, juridique). | Requêtes pour spécifier des règles de nommage ou de formulation. | Termes corrects et conformes. |
| Citation, traçabilité ou responsabilité | L’agent pointe correctement un utilisateur vers sa source correcte. | Lorsque la crédibilité ou la traçabilité est requise. | Requêtes nécessitant des réponses basées sur des preuves. | Les citations correspondent aux sources correctes. |
| Mise en forme et présentation | Respecte une structure ou une disposition spécifique (tables, sections). | Lorsque l’agent produit des sorties mises en forme (par exemple, des résumés, des rapports). | Requêtes nécessitant des résultats structurés. | Corriger les titres, les styles de puces et la disposition. |
| Connaissance du contexte | La réponse est adaptée au contexte de personne, d’intention ou de requête de l’utilisateur. | Pour les requêtes personnalisées ou contextuelles (par exemple, spécifiques au rôle). | Les messages diffèrent selon le rôle ou le contexte. | Réponses personnalisées spécifiques au contexte. |
| Sans hallucination | L’agent ne doit pas inventer des faits au-delà des données fournies. | Lorsque la couverture source est limitée ou sensible. | Requêtes hors périmètre. | « Je ne sais pas » ou réponse de secours sûre. |
Comment utiliser des thèmes d’évaluation
Pour incorporer des thèmes d’évaluation dans votre rubrique :
- Sélectionnez trois à cinq thèmes pertinents pour votre rubrique.
- Définissez ce que signifie chaque thème dans votre domaine.
- Incorporez les thèmes dans les définitions de grade (par exemple, la classe 5 doit exceller dans tous les thèmes).
- Utilisez les thèmes comme liste de contrôle en attribuant une note humaine.
Par exemple, pour une rubrique de rapport IR, hiérarchisez :
- Précision (critique)
- Complétivité (critique)
- Clarté et cohérence (important)
- Terminologie et conformité (important)
- Mise en forme et présentation (agréable à avoir)
Glossaire
Voici les définitions des termes clés utilisés dans le contexte de l’affinement des rubriques dans Copilot Studio Kit.
Agent
L'assistant copilote ou l'assistant IA en cours de test. Dans l’affinement de la rubrique, l’agent génère des réponses que les juges de l’IA et les décideurs humains évaluent.
Note d'IA, score d'IA
L’évaluation numérique (1 à 5) attribuée par le juge IA en fonction des critères de la rubrique.
Logique IA, raisonnement IA
Explication détaillée fournie par le juge de l’IA (en mode d’affinement) expliquant pourquoi elle a attribué une note spécifique et quels critères de rubrique il a appliqués.
Alignement, désalignement
Degré auquel l’évaluation du juge IA correspond au jugement humain.
- Alignement : note d'intelligence artificielle = note humaine (indique que le critère fonctionne comme prévu)
- Désalignement : grade IA ≠ grade humain (indique le besoin d'affinement de la rubrique)
Exhaustivité
Mesure indiquant si la réponse traite entièrement toutes les parties de la requête de l’utilisateur. Une réponse complète couvre chaque élément requis sans omission.
Exactitude, précision
Critère évaluant si la réponse de l’agent est exactement basée sur la réponse attendue ou de référence, les connaissances faisant autorité ou le contenu fourni par le système.
Vue détaillée
Interface axée sur l’examen et la notation des cas de test individuels avec des réponses plus longues. Inclut le contexte et les onglets de conversation complets pour « Affinage » (IA masqué) et « Affinage (complet) » (IA visible).
Biais directionnel
Modèle systématique où le juge IA note constamment plus haut (trop lenient) ou inférieur (trop strict) que les juges humains. Vous pouvez identifier ce schéma en comparant le nombre de désalignements de type (IA > humain) à celui des désalignements de type (IA < humain).
Fidélité
Semblable à l'enracinement, mais souligne que le modèle ne fabrique pas de nouveaux faits au-delà de ce que le cadre ou le contexte fourni permet.
Vue d’affinement complète
Vue de l’interface d’affinement de la rubrique qui montre les notes d’IA et la logique en même temps que les notes humaines, avec des indicateurs d’alignement. Utilisez-la pour comparer les évaluations et analyser les modèles de non-alignement.
Test de réponse générative (test ga)
Type de test dans Copilot Studio Kit dans lequel l’agent génère des réponses en langage naturel, à l’aide de l’orchestration générative, que vous évaluez par rapport aux instructions de validation fournies ou à une rubrique.
Exemple correct, exemple incorrect
Cas de test réels que le créateur sélectionne pour illustrer les modèles de réponse souhaités ou non souhaités. Les exemples incluent l’énoncé de test, la réponse de l’agent et la désignation (bonne ou incorrecte). Utilisez ces exemples pendant l’affinement de la rubrique pour fournir des conseils concrets au juge de l’IA.
Ancrage
Mesure de qualité indiquant si une réponse générée par l’IA est fermement prise en charge par les informations sources fournies (par exemple, documents récupérés, messages système ou faits définis). Une réponse fondée n’introduit pas d’informations que vous ne pouvez pas remonter à une source faisant autorité connue.
Jugement humain, annotation humaine
Évaluation d'un évaluateur de la réponse d’un agent, composée d’une note (1-5) et d’une explication. Les jugements humains agissent en tant que « standard d’or » contre lequel vous comparez le comportement des juges de l’IA pendant l’affinement de la rubrique.
Itérer, itération
Un cycle unique du processus d’affinement des rubriques : exécutez → révisez → évaluez → affinez → enregistrez → réexécutez. Vous avez généralement besoin de plusieurs itérations pour obtenir un alignement acceptable.
Juge LLM, juge IA, évaluateur IA
Modèle de langage volumineux qui évalue la réponse d’un agent en fonction d’une rubrique. Le juge donne une note de 1 à 5 et peut également fournir une justification qui explique comment les critères de la rubrique ont été interprétés et appliqués.
Ampleur de l’inalignation
Différence numérique entre l’IA et les notes humaines. Une différence de 1 point est une mauvaise alignement mineure. Une différence de 2 points ou plus indique des problèmes plus importants qui nécessitent un affinement.
Créateur
Utilisateur de Copilot Studio Kit qui crée, teste et gère les copilotes et les rubriques d’évaluation. Dans le contexte de l’affinement de la rubrique, le créateur fournit des jugements humains qui servent de norme d’évaluation.
Surajustement
Lorsqu’une rubrique devient trop spécifique aux cas de test utilisés pendant l’affinement et ne parvient pas à généraliser aux réponses nouvelles et invisibles. Évitez le surapprentissage en limitant les itérations et en testant avec des nouvelles séries de données.
Note suffisante
La note minimale acceptable (1 à 5) pour qu’un cas de test soit considéré comme réussi.
- Mode de test (niveau de cas de test) : détermine le résultat réel de réussite ou d’échec.
- Mode d’affinement (niveau d’exécution de test) : indicateur d’information uniquement ; l’objectif est l’alignement, pas le passage.
Qualité du raisonnement
Évaluation de la cohérence de la pensée, des étapes logiques, de la justification et de l’interprétation correcte du problème.
Actualité (précision temporelle)
Critère qui évalue si la réponse reflète les informations chronologiquement exactes ou à jour. Ce critère est particulièrement pertinent pour le contenu sensible à l’heure, comme les événements, les dates, les planifications et la disponibilité.
Mode d’affinement (rubrique de niveau d’exécution de test)
Une rubrique utilisée au niveau de l’exécution de test, spécifiquement pour l’affinage itératif des rubriques. L’IA fournit une note et une justification détaillée. Le processus ignore les types de tests de réponses non génératives. L’objectif est de réduire le mauvais alignement entre l’IA et les notes humaines.
Pertinence
Mesure de la façon dont la réponse de l’agent répond directement et correctement à la requête de l’utilisateur. Une réponse est pertinente si elle reste dans l’étendue de la question et évite les informations inutiles ou distraites.
Rubrique
Ensemble structuré d’instructions de notation en langage naturel qu’un juge ia utilise pour évaluer la qualité de la réponse d’un agent. Une rubrique définit les critères, les attentes, les exemples et l’échelle de scoring (1-5) qui déterminent ce qui constitue une réponse « bonne » ou « mauvaise » pour un domaine ou un cas d’usage spécifique.
Affinement de la rubrique
Processus itératif d’amélioration de la clarté, de la spécificité et de l’efficacité d’une rubrique basée sur l’alignement ou l’incompatibilité observés entre le jugement humain et le jugement ia. L’affinement inclut la mise à jour des instructions, l’ajout d’exemples et la réexécutation des tests jusqu’à ce que le comportement d’évaluation s’aligne sur les attentes de domaine.
Vue d’affinement standard
La vue de l'interface d'affinement de la rubrique qui masque les notes de l'IA et leur raisonnement pour éviter les biais lorsque vous fournissez des jugements humains. Utilisez cette vue pour la révision initiale et la notation non biaisée.
Mode de test (rubrique de niveau cas de test)
Utilisez une rubrique au niveau du cas de test individuel pour l’assurance qualité régulière. L’IA fournit uniquement une note (sans raison) pour l’efficacité des coûts. La réussite ou l’échec est déterminée par le fait que la note est supérieure ou égale au seuil de niveau de passage.
Cas de test
Un test individuel au sein d’un jeu de tests, constitué d’un énoncé de test (entrée utilisateur), d’un comportement attendu et de critères de validation (validation standard ou notation basée sur les rubriques).
Exécution de test
Exécution unique d’un jeu de tests, produisant des résultats qui incluent les réponses de l’agent, les notes IA, les annotations humaines (en mode d’affinement) et les indicateurs d’alignement.
Remplacement de la rubrique de niveau d’exécution de test
Lorsque vous sélectionnez une rubrique au niveau de l’exécution de test, elle s’applique à tous les cas de test de réponse générative dans cette exécution, en remplaçant les rubriques attribuées au niveau de cas de test individuel.
Jeu de test
Collection d’un ou plusieurs cas de test exécutés ensemble. En mode d’affinement, la même rubrique s’applique à tous les cas de test de réponse générative dans l’ensemble.
Instructions de validation
Instructions textuelles utilisées dans les tests de réponse générative standard pour spécifier ce qui rend une réponse acceptable. Mutuellement exclusif avec le classement basé sur les rubriques. Lorsque vous sélectionnez une rubrique, les instructions de validation sont masquées ou ignorées.
Référence rapide : Étapes du flux de travail d’affinement
- Démarrer l'exécution : configurer l'exécution de test avec la rubrique (niveau d’exécution de test) et la note de passage ; exécuter.
- Révision : ouvrir la vue Affinage standard (IA masqué).
- Grade : fournir des notes humaines (1 à 5) et un raisonnement pour tous les cas de test.
- Marquer des exemples : activez Marqué comme exemple pour 6 à 10 cas, bons ou mauvais.
- Analyser : passer en mode affinement complet ; passer en revue les notes et les justifications de l’IA ; calculer l’alignement.
- Affiner : Sélectionner affiner la rubrique ; L’IA analyse les modèles ; met à jour la rubrique.
- Enregistrer : Enregistrer (remplacer) ou Enregistrer sous (nouvelle version).
- Réexécuter : exécuter des tests duplicata ; exécuter en utilisant des critères affinés.
- Répétez : Continuez jusqu’à ce que l’alignement soit de 80 à 90 % ou plus.
Référence rapide : mode de test et mode d’affinement
| Aspect | Mode de test | Mode d’affinement |
|---|---|---|
| Niveau de la rubrique | Cas de test | Exécution de test |
| Objectif | l’assurance qualité | Amélioration de la rubrique |
| Sortie IA | Grade uniquement | Note + justification |
| Coût | Lower | Plus haut |
| Note de passage | Détermine la réussite ou l’échec | Informations uniquement |
| But | Identifier les réponses de faible qualité | Minimiser le désalignement entre l’IA et l’humain |
| Tests non GA | Fonctionner normalement | Ignoré |
| Évaluation humaine | Non requis | Obligatoire pour le raffinement |
Référence rapide : Guide de sélection des notes
| Note suffisante | Quand utiliser | Taux de réussite attendu |
|---|---|---|
| 5 (Excellent) | Communications critiques (relations investisseurs, de direction, juridique) | Faible taux de réussite ; seules les meilleures réponses passent |
| 4 (Puissant) | Communications professionnelles | Taux de réussite modéré ; les réponses de haute qualité réussissent |
| 3 (Acceptable) | Outils internes, fonctionnalités minimales | Taux de réussite élevé ; les réponses fonctionnelles réussissent |
| 2 (Faible) | Barre très basse (rarement appropriée) | Taux de réussite très élevé |
| 1 (Amélioration des besoins) | Presque jamais utilisé | Presque toutes les réponses passent |
Recommandation : Par défaut, la note de passage est 5 pour le mode de raffinement. Ajustez à 4 ou 5 pour le mode de test en fonction de vos normes de qualité.