Informations de référence sur les évaluateurs intégrés

Important

Les éléments marqués (préversion) dans cet article sont actuellement en préversion publique. Cette préversion est fournie sans contrat de niveau de service et nous ne le recommandons pas pour les charges de travail de production. Certaines fonctionnalités peuvent ne pas être prises en charge ou avoir des fonctionnalités contraintes. Pour plus d’informations, consultez Supplemental Conditions d’utilisation pour les préversions Microsoft Azure.

Microsoft Foundry comprend des évaluateurs intégrés pour évaluer la qualité, la sécurité et la fiabilité des réponses ia tout au long du cycle de vie du développement. Cette référence répertorie tous les évaluateurs disponibles, leurs objectifs et conseils sur la sélection de celui qui convient à votre cas d’usage. Vous pouvez également créer des évaluateurs personnalisés adaptés à vos critères d’évaluation spécifiques.

Évaluateurs à usage général

Evaluator	Purpose
Coherence	Mesure la cohérence logique et le flux des réponses.
Fluency	Mesure la qualité et la lisibilité du langage naturel.

Pour en savoir plus, consultez les évaluateurs à usage général.

Évaluateurs de similarité textuelle

Evaluator	Purpose
Similarity	Mesure de similarité textuelle assistée par l’IA.
F1 Score	La moyenne harmonique de précision et de rappel dans les jetons chevauche la réponse et la vérité terrestre.
BLEU	Le score d’évaluation bilingue Understudy pour les mesures de qualité de la traduction se chevauche en n-grammes entre la réponse et la vérité au sol.
GLEU	Google-BLEU variante pour les mesures d’évaluation au niveau de la phrase chevauche en n-grammes la réponse et la vérité fondamentale.
ROUGE	Recall-Oriented Understudy pour Gisting Evaluation mesure en n-grammes les points de réponse et la vérité de base.
METEOR	Métrique pour l’évaluation de la traduction avec des mesures de classement explicite se chevauchent en n-grammes entre la réponse et la vérité au sol.

Pour en savoir plus, consultez évaluateurs de similarité textuelle.

RAG evaluators

Evaluator	Purpose
Retrieval	Mesure la façon dont le système récupère efficacement les informations pertinentes.
Document Retrieval	Mesure la précision dans la récupération donne la vérité au sol.
Groundedness	Mesure la façon dont la réponse est fondée dans le contexte récupéré. Retourne un score compris entre 1 et 5 à l’aide d’un jugement basé sur un modèle.
Groundedness Pro (préversion)	Mesure si la réponse est ancrée dans le contexte récupéré à l’aide du service Azure AI Sécurité du Contenu. Retourne une passe/échec binaire sans nécessiter de déploiement de modèle.
Relevance	Mesure la pertinence de la réponse par rapport à la requête.
Complétivité de la réponse (préversion)	Mesures dans quelle mesure la réponse est terminée (pas manquant d’informations critiques) en ce qui concerne la vérité au sol.

Pour en savoir plus, consultez les évaluateurs de génération augmentée de récupération (RAG).

Évaluateurs de risque et de sécurité

Evaluator	Purpose
Haine et injustice	Identifie le contenu biaisé, discriminatoire ou haineux.
Sexual	Identifie le contenu sexuel inapproprié.
Violence	Détecte le contenu violent ou l’incitation.
Self-Harm	Détecte le contenu qui promeut ou décrit l’auto-préjudice.
Protected Materials	Détecte l’utilisation non autorisée du contenu protégé ou protégé par le droit d’auteur.
Attaque indirecte (XPIA)	Mesure si la réponse est tombée pour une tentative de jailbreak indirect injectée dans le contexte récupéré.
Code Vulnerability	Identifie les problèmes de sécurité dans le code généré.
Ungrounded Attributes	Détecte les informations fabriquées ou hallucinés déduites des interactions utilisateur.
Actions interdites (préversion)	Mesure la capacité d’un agent IA à s’engager dans des comportements qui violent des actions explicitement interdites.
Fuite de données sensibles (préversion)	Mesure la vulnérabilité d’un agent IA pour exposer des informations sensibles.

Pour en savoir plus, consultez les évaluateurs de risque et de sécurité.

Agent evaluators

Evaluator	Purpose
Respect des tâches (préversion)	Mesure si l’agent suit les tâches identifiées en fonction des instructions système.
Achèvement des tâches (préversion)	Mesure si l’agent a correctement terminé la tâche demandée de bout en bout.
Résolution d’intention (préversion)	Mesure la précision de l’agent pour identifier et résoudre les intentions de l’utilisateur.
Efficacité de la navigation des tâches	Détermine si la séquence d’étapes de l’agent correspond à un chemin optimal ou attendu pour mesurer l’efficacité.
Précision des appels de l’outil	Mesure la qualité globale des appels d’outils, notamment la sélection, la correction des paramètres et l’efficacité.
Tool Selection	Mesure si l’agent a sélectionné les outils les plus appropriés et efficaces pour une tâche.
Précision de l’entrée de l’outil	Vérifie que tous les paramètres d’appel d’outil sont corrects avec des critères stricts, notamment le sol, le type, le format, l’exhaustivité et l’adéquation.
Utilisation de la sortie de l’outil	Mesure si l’agent interprète et utilise correctement les sorties de l’outil dans les réponses et les appels suivants.
Réussite de l’appel de l’outil	Évalue si tous les appels d’outils s’exécutent correctement sans échecs techniques.

Pour en savoir plus, consultez les évaluateurs de l’agent.

Azure les classateurs OpenAI

Evaluator	Purpose
Model Labeler	Classifie le contenu à l’aide d’instructions et d’étiquettes personnalisées.
String Checker	Effectue des validations de texte flexibles et des critères correspondants.
Text Similarity	Évalue la qualité du texte ou détermine la proximité sémantique.
Model Scorer	Génère des scores numériques (plage personnalisée) pour le contenu en fonction des instructions personnalisées.

Pour plus d’informations, consultez Azure OpenAI Graders.

Évaluateurs personnalisés (préversion)

En plus des évaluateurs intégrés, vous pouvez créer des évaluateurs personnalisés adaptés à vos critères d’évaluation spécifiques. Les évaluateurs personnalisés vous permettent de définir une logique de scoring unique, des règles de validation et des métriques de qualité qui s’alignent sur vos besoins métier et les besoins spécifiques à l’application.

Pour en savoir plus, consultez Évaluateurs personnalisés.

Combining evaluators

Pour une évaluation complète de la qualité, combinez plusieurs évaluateurs :

Applications RAG : Récupération + Soledness + Pertinence + Sécurité du contenu
Applications de l’agent : Précision des appels de l’outil + Respect des tâches + Résolution d’intention + Sécurité du contenu
Applications de traduction : BLEU + METEOR + Fluency + Cohérence
Toutes les applications : Ajoutez des évaluateurs de risques et de sécurité (Haine et Injustice, Sexuel, Violence, Self-Harm) pour des pratiques responsables en IA

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-30