Guide de référence des rubriques

Ce guide de référence fournit des informations détaillées sur les définitions d’échelle de grade, les formules de calcul d’alignement, les exemples de rubriques pour différents cas d’usage, les thèmes d’évaluation et un glossaire des termes clés. Utilisez-la pour créer et affiner les rubriques d’évaluation des réponses générées par l’IA dans Copilot Studio.

Définitions de l'échelle de notation

Utilisez l’échelle de 5 points standard dans toutes les rubriques :

Grade	Étiquette	Définition
5	Exemplaire	Satisfait pleinement à toutes les attentes ; professionnel et poli ; aucune amélioration nécessaire ; prêt à être utilisé
4	Fort	Répond à toutes les exigences majeures avec des domaines mineurs d’amélioration ; haute qualité globale ; principalement prêt
3	Acceptable	Répond aux attentes minimales, mais manque de profondeur ou de raffinement ; fonctionnellement adéquat ; a besoin d'être amélioré
2	Faible	Contient des lacunes significatives dans la qualité, la structure ou la pertinence ; a besoin d’une amélioration significative
1	Besoin d'amélioration	Ne répond pas aux attentes ; problèmes majeurs liés à l’exactitude, à la pertinence, au ton ou à l’exhaustivité

Formule de calcul d’alignement

Voici la formule permettant de calculer l’alignement entre les notes d’IA et les notes humaines pour les cas de test individuels, et comment analyser le désalignement directionnel.

Alignement de cas de test individuel

Pour chaque cas de test :

Aligned = (AI Grade == Human Grade)
Misaligned = (AI Grade ≠ Human Grade)

Calcul d’alignement pour les cas de test individuels

Pour chaque cas de test, calculez l’alignement entre les réponses générées par l’IA et les attentes humaines à l’aide de l’interpolation linéaire de 100% (correspondance parfaite) à 0% (au maximum différent).

Interprétation :

Lorsque la note de l’IA = note de l’humain, l’alignement = 100 %
À mesure que la différence de grade augmente, l’alignement diminue linéairement
La différence maximale sur une échelle de 1 à 5 est de 4 étapes, qui correspond à 0%

Formule :

alignment = 100% * (1 - |AI - Human| / 4)

Matrice d’alignement résultante :

IA ↓ / Humain →	1	2	3	4	5
1	100 %	75 %	50 %	25 %	0 %
2	75 %	100 %	75 %	50 %	25 %
3	50 %	75 %	100 %	75 %	50 %
4	25 %	50 %	75 %	100 %	75 %
5	0 %	25 %	50 %	75 %	100 %

Propriétés :

Symétrique : l’alignement est identique quelle que soit la valeur attribuée par l’IA ou l’humain
Diagonale = 100 %: alignement parfait lorsque les notes de l’IA et de l’humain correspondent
Arêtes éloignées = 0%: décalage maximal lorsque les notes sont à des extrémités opposées de l’échelle
Interpolation lisse et linéaire : l’alignement diminue uniformément à mesure que la différence augmente

Exemple de calcul :

Nombre total de cas de test avec des notes humaines : 30
Cas de test où la note IA = Grade humain : 24
Alignement % = 24 / 30 × 100% = 80%

Analyse de l’inalignation directionnelle

AI too lenient = Count of (AI Grade > Human Grade)
AI too strict = Count of (AI Grade < Human Grade)
Net bias = (AI too lenient - AI too strict) / Total misaligned cases

Example:

Note de l'IA > Note humaine : 3 cas (IA trop indulgente)
Note de l’IA < note de l’humain : 3 cas (IA trop stricte)
Biais net = (3 - 3) / 6 = 0 (aucun biais systématique)

Exemple de rubrique 1 : Rapport sur les relations des investisseurs

À quoi ressemble une bonne réponse

Évaluez la réponse envoyée par rapport à la réponse d’expert ou à la norme attendue dans les qualités de communication spécifiques à la récupération d'information.

Clarté : Les informations sont-elles communiquées clairement et logiquement ?
Pertinence : le contenu correspond-il à ce que les investisseurs attendent ?
Complétivité : Les principaux facteurs métier et les métriques sont-ils inclus ?
Cohérence et qualité narrative : l’histoire est-elle cohérente et lisible ?
Ton professionnel : La réponse ressemble-t-elle à une sortie IR soignée ?
Insightfulness : Met-il en évidence la signification, les conducteurs ou les risques ?
Précision par rapport aux attentes : reste-t-elle alignée sur ce qu’une équipe IR considérerait acceptable (pas nécessairement en jugeant de la factualité) ?

Définitions de grade

Voici comment interpréter l'échelle de notation de 1 à 5 pour un rapport IR :

5 : Qualité IR excellente ou professionnelle

Réponse :

Satisfait pleinement aux attentes d'un rapport de relations investisseurs
Bien structuré, poli et prêt pour les investisseurs
Inclut tous les éléments principaux : indicateurs de performance clés (KPI), facteurs de performance, commentaires, insights à l’avenir (le cas échéant) et contexte stratégique
Le ton est professionnel, en cohérence avec la voix de la communication financière de l'entreprise
Le flux narratif est logique, avec des explications nettes et concises.
Aucun détail non pertinent ; utilité élevée des investisseurs

4 : Forte ou haute qualité

Réponse :

Couvre tous les principaux domaines de contenu pertinents pour les investisseurs
Principalement bien organisé avec des lacunes mineures ou une légère redondance
Le ton est professionnel, mais peut-être moins poli que le score 5
Fournit des insights utiles et des commentaires
Certains aspects peuvent être améliorés en termes de précision, de clarté ou d'accentuation des principaux facteurs.

3 : Adéquat ou répondant aux attentes minimales du runtime d’intégration

Réponse :

Communique un contenu correct et pertinent, mais manque de profondeur ou de finition.
Absence d’un ou deux éléments clés d'IR (par exemple, contexte pour les résultats, les facteurs moteurs ou les risques)
La narration peut se sentir mécanique ou générique
Le ton est acceptable, mais pas aussi poli ou convivial pour les investisseurs
Fournit des informations de base mais des insights limités

2 : Faible ou partiellement adapté

Réponse :

Contient des lacunes significatives dans la narration, la structure ou la pertinence
Manque des composants importants pertinents pour les investisseurs, tels que les métriques, les pilotes ou le contexte commercial
Le ton peut être incohérent ou trop occasionnel
L’organisation peut se sentir dispersée ou floue
Fournit peu de valeur réelle à un investisseur ou un professionnel ir

1 : Médiocre ou inadapté à l’utilisation de l’IR

Réponse :

Manque la plupart des attentes d’un rapport IR
Non structuré, déroutant ou non pertinent pour les besoins des investisseurs
Le ton n'est pas professionnel, est trop décontracté ou à connotation marketing.
Manque de métriques, de facteurs, d’explications ou de présentation trompeuse
Ne reflète pas les normes de communication IR

Exemple de rubrique 2 : Résumés d’entreprise ou génération de rapport d’état

À quoi ressemble une bonne réponse

Évaluez le rapport soumis sur la façon dont il correspond bien au ton et au style attendus, notamment :

Professionnalisme : Est-ce qu’il maintient un ton approprié pour l’entreprise ?
Cohérence : Le ton reste-t-il uniforme tout au long du texte ?
Alignement vocal : Cela correspond-il à l'entreprise, à l'équipe ou au service IR ?
Formalité : le niveau de formalité correspond-t-il au type de rapport (par exemple, IR = high, IT weekly = medium) ?
Clarté et franchise : Est-ce concis, croustillant, sans superflu ?
Conformité stylistique : est-ce qu’elle suit les modèles attendus : structure à puces, style de résumé exécutif, utilisation des temps, etc.
Évitement de biais ou d’émotion : pas d'argot, de langage exagéré, ou de ton commercial, sauf si explicitement demandé.

Définitions de grade

Voici comment interpréter l’échelle de 1 à 5 niveaux pour un résumé ou un rapport d’état d’entreprise :

5 : Excellent (cohérent, professionnel, sur marque)

Le rapport :

Maintient une tonalité parfaitement cohérente tout au long
Correspond précisément au ton attendu en entreprise, en IR ou en IT
Utilise une langue professionnelle, polie et confiante
Suit les conventions de style : paragraphes structurés, puces claires, formulation mesurée
Évite le battage médiatique, l'exagération, la désinvolture et le langage émotionnel
Lit comme s’il est écrit par un communicator d’entreprise expérimenté

4 : Forte (variations mineures mais de haute qualité)

Le rapport :

Correspond au ton attendu presque parfaitement avec une légère dérive
Utilise principalement des formulations cohérentes, avec de petites traces de verbosité excessive ou d’informalité.
Suit la plupart des conventions de style, mais pourrait être renforcé
Ne contient pas de langage non professionnel, mais peut utiliser une formulation légèrement générique ou moins percutante.

3 : Adéquat (acceptable mais pas entièrement cohérent)

Le rapport :

Affiche une variation notable du ton entre les sections
Utilise un style qui est principalement correct, mais occasionnellement informel, trop décontracté ou légèrement marketing-like
Peut ne pas correspondre à la voix attendue de l'entreprise
La structure est acceptable mais quelque peu incohérente (formats de puces mélangés, formalité inégale)
Est suffisamment professionnel pour comprendre, mais pas encore adapté aux investisseurs ou aux dirigeants.

2 : Faible (Les problèmes de ton affectent le professionnalisme)

Le rapport :

Utilise une tonalité fréquemment incohérente ; peut mélanger la langue formelle et décontractée
Utilise des formulations conversationnelles ou « bavardes » inappropriées pour les rapports
Affiche des incohérences stylistiques telles que des phrases interminables, des puces désorganisées et des transitions informelles
Utilise le ton qui peut se présenter comme marketing, émotionnel ou vague
Ne respecte pas bien le guide de style attendu

1 : Médiocre (non approprié pour l’utilisation du rapport)

Le rapport :

Adopte un ton très inapproprié qui est trop décontracté, émotionnel, exagéré, ou peu clair
N’a pas de style cohérent et n’a pas de structure
Utilise le ton qui sape la crédibilité ou le professionnalisme
Peut inclure l'argot, les émojis, la dramatisation ou la narration inappropriée pour les rapports.
Lit comme un e-mail occasionnel ou un billet de blog, pas un rapport formel

Thèmes ou critères d’évaluation

Dimensions d’évaluation courantes que vous pouvez utiliser dans différentes rubriques. Sélectionnez les thèmes les plus pertinents pour votre cas d’usage.

Critère d’évaluation	Définition	Quand utiliser	Exemple d’entrée utilisateur	Réponse attendue
Précision	L’information est exactement correcte ou les données proviennent de la source de vérité de base (Q&A, récupération, rapports).	Lorsque l’exactitude des faits est essentielle (par exemple, les données financières, les spécifications techniques).	Questions avec des réponses vérifiables (par exemple, « Qu’est-ce que la politique RTD ? »)	Réponses factuelment correctes ; tous les détails précis.
Fondement ou fidélité	La réponse est basée uniquement sur les connaissances fournies ou les données récupérées ; aucune information incorrecte.	Lorsque l’agent synthétise ou référence le contenu de la Base de connaissances.	Demandes nécessitant des preuves ou des citations.	Réponses ancrées avec citations ; pas de faits composés.
Exhaustivité	La réponse traite toutes les parties, sections ou étapes d’une tâche.	Lorsque la sortie doit inclure plusieurs parties (procédure, génération de rapports).	Questions ou requêtes en plusieurs parties (par exemple, étapes d’intégration).	La réponse traite tous les éléments requis.
Relevance	Les informations doivent être spécifiques à la requête de l’utilisateur et rester sur la rubrique.	Lorsque l’étendue de sortie doit être étroite (par exemple, une stratégie unique).	Invitations avec une intention ciblée.	Réponses concises et ciblées ; exclut les informations non liées.
Cohérence	L’agent fournit la même sortie pour les requêtes équivalentes ou répétées.	Évaluez toujours l’AQ et déterminez la répétabilité.	Requêtes répétées.	Réponses identiques ou quasi-identiques.
Clarté et cohérence	La sortie est clairement écrite, structurée logiquement et facile à comprendre.	Toujours pour la génération ; garantit la lisibilité humaine.	Toute invite de génération de contenu.	Grammaire correcte, cohérente, texte fluide.
Terminologie ou conformité	Utilisation cohérente des normes de terminologie ou de formulation requises.	Lorsque la marque ou le langage de domaine est important (par exemple, RH, juridique).	Requêtes pour spécifier des règles de nommage ou de formulation.	Termes corrects et conformes.
Citation, traçabilité ou responsabilité	L’agent pointe correctement un utilisateur vers sa source correcte.	Lorsque la crédibilité ou la traçabilité est requise.	Requêtes nécessitant des réponses basées sur des preuves.	Les citations correspondent aux sources correctes.
Mise en forme et présentation	Respecte une structure ou une disposition spécifique (tables, sections).	Lorsque l’agent produit des sorties mises en forme (par exemple, des résumés, des rapports).	Requêtes nécessitant des résultats structurés.	Corriger les titres, les styles de puces et la disposition.
Connaissance du contexte	La réponse est adaptée au contexte de personne, d’intention ou de requête de l’utilisateur.	Pour les requêtes personnalisées ou contextuelles (par exemple, spécifiques au rôle).	Les messages diffèrent selon le rôle ou le contexte.	Réponses personnalisées spécifiques au contexte.
Sans hallucination	L’agent ne doit pas inventer des faits au-delà des données fournies.	Lorsque la couverture source est limitée ou sensible.	Requêtes hors périmètre.	« Je ne sais pas » ou réponse de secours sûre.

Comment utiliser des thèmes d’évaluation

Pour incorporer des thèmes d’évaluation dans votre rubrique :

Sélectionnez trois à cinq thèmes pertinents pour votre rubrique.
Définissez ce que signifie chaque thème dans votre domaine.
Incorporez les thèmes dans les définitions de grade (par exemple, la classe 5 doit exceller dans tous les thèmes).
Utilisez les thèmes comme liste de contrôle en attribuant une note humaine.

Par exemple, pour une rubrique de rapport IR, hiérarchisez :

Précision (critique)
Complétivité (critique)
Clarté et cohérence (important)
Terminologie et conformité (important)
Mise en forme et présentation (agréable à avoir)

Glossaire

Voici les définitions des termes clés utilisés dans le contexte de l’affinement des rubriques dans Copilot Studio Kit.

Agent

L'assistant copilote ou l'assistant IA en cours de test. Dans l’affinement de la rubrique, l’agent génère des réponses que les juges de l’IA et les décideurs humains évaluent.

Note d'IA, score d'IA

L’évaluation numérique (1 à 5) attribuée par le juge IA en fonction des critères de la rubrique.

Logique IA, raisonnement IA

Explication détaillée fournie par le juge de l’IA (en mode d’affinement) expliquant pourquoi elle a attribué une note spécifique et quels critères de rubrique il a appliqués.

Alignement, désalignement

Degré auquel l’évaluation du juge IA correspond au jugement humain.

Alignement : note d'intelligence artificielle = note humaine (indique que le critère fonctionne comme prévu)
Désalignement : grade IA ≠ grade humain (indique le besoin d'affinement de la rubrique)

Exhaustivité

Mesure indiquant si la réponse traite entièrement toutes les parties de la requête de l’utilisateur. Une réponse complète couvre chaque élément requis sans omission.

Exactitude, précision

Critère évaluant si la réponse de l’agent est exactement basée sur la réponse attendue ou de référence, les connaissances faisant autorité ou le contenu fourni par le système.

Vue détaillée

Interface axée sur l’examen et la notation des cas de test individuels avec des réponses plus longues. Inclut le contexte et les onglets de conversation complets pour « Affinage » (IA masqué) et « Affinage (complet) » (IA visible).

Biais directionnel

Modèle systématique où le juge IA note constamment plus haut (trop lenient) ou inférieur (trop strict) que les juges humains. Vous pouvez identifier ce schéma en comparant le nombre de désalignements de type (IA > humain) à celui des désalignements de type (IA < humain).

Fidélité

Semblable à l'enracinement, mais souligne que le modèle ne fabrique pas de nouveaux faits au-delà de ce que le cadre ou le contexte fourni permet.

Vue de l’interface d’affinement de la rubrique qui montre les notes d’IA et la logique en même temps que les notes humaines, avec des indicateurs d’alignement. Utilisez-la pour comparer les évaluations et analyser les modèles de non-alignement.

Test de réponse générative (test ga)

Type de test dans Copilot Studio Kit dans lequel l’agent génère des réponses en langage naturel, à l’aide de l’orchestration générative, que vous évaluez par rapport aux instructions de validation fournies ou à une rubrique.

Exemple correct, exemple incorrect

Cas de test réels que le créateur sélectionne pour illustrer les modèles de réponse souhaités ou non souhaités. Les exemples incluent l’énoncé de test, la réponse de l’agent et la désignation (bonne ou incorrecte). Utilisez ces exemples pendant l’affinement de la rubrique pour fournir des conseils concrets au juge de l’IA.

Ancrage

Mesure de qualité indiquant si une réponse générée par l’IA est fermement prise en charge par les informations sources fournies (par exemple, documents récupérés, messages système ou faits définis). Une réponse fondée n’introduit pas d’informations que vous ne pouvez pas remonter à une source faisant autorité connue.

Jugement humain, annotation humaine

Évaluation d'un évaluateur de la réponse d’un agent, composée d’une note (1-5) et d’une explication. Les jugements humains agissent en tant que « standard d’or » contre lequel vous comparez le comportement des juges de l’IA pendant l’affinement de la rubrique.

Itérer, itération

Un cycle unique du processus d’affinement des rubriques : exécutez → révisez → évaluez → affinez → enregistrez → réexécutez. Vous avez généralement besoin de plusieurs itérations pour obtenir un alignement acceptable.

Juge LLM, juge IA, évaluateur IA

Modèle de langage volumineux qui évalue la réponse d’un agent en fonction d’une rubrique. Le juge donne une note de 1 à 5 et peut également fournir une justification qui explique comment les critères de la rubrique ont été interprétés et appliqués.

Ampleur de l’inalignation

Différence numérique entre l’IA et les notes humaines. Une différence de 1 point est une mauvaise alignement mineure. Une différence de 2 points ou plus indique des problèmes plus importants qui nécessitent un affinement.

Créateur

Utilisateur de Copilot Studio Kit qui crée, teste et gère les copilotes et les rubriques d’évaluation. Dans le contexte de l’affinement de la rubrique, le créateur fournit des jugements humains qui servent de norme d’évaluation.

Surajustement

Lorsqu’une rubrique devient trop spécifique aux cas de test utilisés pendant l’affinement et ne parvient pas à généraliser aux réponses nouvelles et invisibles. Évitez le surapprentissage en limitant les itérations et en testant avec des nouvelles séries de données.

Note suffisante

La note minimale acceptable (1 à 5) pour qu’un cas de test soit considéré comme réussi.

Mode de test (niveau de cas de test) : détermine le résultat réel de réussite ou d’échec.
Mode d’affinement (niveau d’exécution de test) : indicateur d’information uniquement ; l’objectif est l’alignement, pas le passage.

Qualité du raisonnement

Évaluation de la cohérence de la pensée, des étapes logiques, de la justification et de l’interprétation correcte du problème.

Actualité (précision temporelle)

Critère qui évalue si la réponse reflète les informations chronologiquement exactes ou à jour. Ce critère est particulièrement pertinent pour le contenu sensible à l’heure, comme les événements, les dates, les planifications et la disponibilité.

Une rubrique utilisée au niveau de l’exécution de test, spécifiquement pour l’affinage itératif des rubriques. L’IA fournit une note et une justification détaillée. Le processus ignore les types de tests de réponses non génératives. L’objectif est de réduire le mauvais alignement entre l’IA et les notes humaines.

Pertinence

Mesure de la façon dont la réponse de l’agent répond directement et correctement à la requête de l’utilisateur. Une réponse est pertinente si elle reste dans l’étendue de la question et évite les informations inutiles ou distraites.

Rubrique

Ensemble structuré d’instructions de notation en langage naturel qu’un juge ia utilise pour évaluer la qualité de la réponse d’un agent. Une rubrique définit les critères, les attentes, les exemples et l’échelle de scoring (1-5) qui déterminent ce qui constitue une réponse « bonne » ou « mauvaise » pour un domaine ou un cas d’usage spécifique.

Processus itératif d’amélioration de la clarté, de la spécificité et de l’efficacité d’une rubrique basée sur l’alignement ou l’incompatibilité observés entre le jugement humain et le jugement ia. L’affinement inclut la mise à jour des instructions, l’ajout d’exemples et la réexécutation des tests jusqu’à ce que le comportement d’évaluation s’aligne sur les attentes de domaine.

La vue de l'interface d'affinement de la rubrique qui masque les notes de l'IA et leur raisonnement pour éviter les biais lorsque vous fournissez des jugements humains. Utilisez cette vue pour la révision initiale et la notation non biaisée.

Mode de test (rubrique de niveau cas de test)

Utilisez une rubrique au niveau du cas de test individuel pour l’assurance qualité régulière. L’IA fournit uniquement une note (sans raison) pour l’efficacité des coûts. La réussite ou l’échec est déterminée par le fait que la note est supérieure ou égale au seuil de niveau de passage.

Cas de test

Un test individuel au sein d’un jeu de tests, constitué d’un énoncé de test (entrée utilisateur), d’un comportement attendu et de critères de validation (validation standard ou notation basée sur les rubriques).

Exécution de test

Exécution unique d’un jeu de tests, produisant des résultats qui incluent les réponses de l’agent, les notes IA, les annotations humaines (en mode d’affinement) et les indicateurs d’alignement.

Remplacement de la rubrique de niveau d’exécution de test

Lorsque vous sélectionnez une rubrique au niveau de l’exécution de test, elle s’applique à tous les cas de test de réponse générative dans cette exécution, en remplaçant les rubriques attribuées au niveau de cas de test individuel.

Jeu de test

Collection d’un ou plusieurs cas de test exécutés ensemble. En mode d’affinement, la même rubrique s’applique à tous les cas de test de réponse générative dans l’ensemble.

Instructions de validation

Instructions textuelles utilisées dans les tests de réponse générative standard pour spécifier ce qui rend une réponse acceptable. Mutuellement exclusif avec le classement basé sur les rubriques. Lorsque vous sélectionnez une rubrique, les instructions de validation sont masquées ou ignorées.

Démarrer l'exécution : configurer l'exécution de test avec la rubrique (niveau d’exécution de test) et la note de passage ; exécuter.
Révision : ouvrir la vue Affinage standard (IA masqué).
Grade : fournir des notes humaines (1 à 5) et un raisonnement pour tous les cas de test.
Marquer des exemples : activez Marqué comme exemple pour 6 à 10 cas, bons ou mauvais.
Analyser : passer en mode affinement complet ; passer en revue les notes et les justifications de l’IA ; calculer l’alignement.
Affiner : Sélectionner affiner la rubrique ; L’IA analyse les modèles ; met à jour la rubrique.
Enregistrer : Enregistrer (remplacer) ou Enregistrer sous (nouvelle version).
Réexécuter : exécuter des tests duplicata ; exécuter en utilisant des critères affinés.
Répétez : Continuez jusqu’à ce que l’alignement soit de 80 à 90 % ou plus.

Aspect	Mode de test	Mode d’affinement
Niveau de la rubrique	Cas de test	Exécution de test
Objectif	l’assurance qualité	Amélioration de la rubrique
Sortie IA	Grade uniquement	Note + justification
Coût	Lower	Plus haut
Note de passage	Détermine la réussite ou l’échec	Informations uniquement
But	Identifier les réponses de faible qualité	Minimiser le désalignement entre l’IA et l’humain
Tests non GA	Fonctionner normalement	Ignoré
Évaluation humaine	Non requis	Obligatoire pour le raffinement

Référence rapide : Guide de sélection des notes

Note suffisante	Quand utiliser	Taux de réussite attendu
5 (Excellent)	Communications critiques (relations investisseurs, de direction, juridique)	Faible taux de réussite ; seules les meilleures réponses passent
4 (Puissant)	Communications professionnelles	Taux de réussite modéré ; les réponses de haute qualité réussissent
3 (Acceptable)	Outils internes, fonctionnalités minimales	Taux de réussite élevé ; les réponses fonctionnelles réussissent
2 (Faible)	Barre très basse (rarement appropriée)	Taux de réussite très élevé
1 (Amélioration des besoins)	Presque jamais utilisé	Presque toutes les réponses passent

Recommandation : Par défaut, la note de passage est 5 pour le mode de raffinement. Ajustez à 4 ou 5 pour le mode de test en fonction de vos normes de qualité.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-03-12

Guide de référence des rubriques

Définitions de l'échelle de notation

Formule de calcul d’alignement

Alignement de cas de test individuel

Calcul d’alignement pour les cas de test individuels

Analyse de l’inalignation directionnelle

Exemple de rubrique 1 : Rapport sur les relations des investisseurs

À quoi ressemble une bonne réponse

Définitions de grade

5 : Qualité IR excellente ou professionnelle

4 : Forte ou haute qualité

3 : Adéquat ou répondant aux attentes minimales du runtime d’intégration

2 : Faible ou partiellement adapté

1 : Médiocre ou inadapté à l’utilisation de l’IR

Exemple de rubrique 2 : Résumés d’entreprise ou génération de rapport d’état

À quoi ressemble une bonne réponse

Définitions de grade

5 : Excellent (cohérent, professionnel, sur marque)

4 : Forte (variations mineures mais de haute qualité)

3 : Adéquat (acceptable mais pas entièrement cohérent)

2 : Faible (Les problèmes de ton affectent le professionnalisme)

1 : Médiocre (non approprié pour l’utilisation du rapport)

Thèmes ou critères d’évaluation

Comment utiliser des thèmes d’évaluation

Glossaire

Agent

Note d'IA, score d'IA

Logique IA, raisonnement IA

Alignement, désalignement

Exhaustivité

Exactitude, précision

Vue détaillée

Biais directionnel

Fidélité

Vue d’affinement complète

Test de réponse générative (test ga)

Exemple correct, exemple incorrect

Ancrage

Jugement humain, annotation humaine

Itérer, itération

Juge LLM, juge IA, évaluateur IA

Ampleur de l’inalignation

Créateur

Surajustement

Note suffisante

Qualité du raisonnement

Actualité (précision temporelle)

Mode d’affinement (rubrique de niveau d’exécution de test)

Pertinence

Rubrique

Affinement de la rubrique

Vue d’affinement standard

Mode de test (rubrique de niveau cas de test)

Cas de test

Exécution de test

Remplacement de la rubrique de niveau d’exécution de test

Jeu de test

Instructions de validation

Référence rapide : Étapes du flux de travail d’affinement

Référence rapide : mode de test et mode d’affinement

Référence rapide : Guide de sélection des notes

Commentaires

Ressources supplémentaires