Informations de référence sur les évaluateurs intégrés

Important

Les éléments marqués (préversion) dans cet article sont actuellement en préversion publique. Cette préversion est fournie sans contrat de niveau de service et nous ne le recommandons pas pour les charges de travail de production. Certaines fonctionnalités peuvent ne pas être prises en charge ou avoir des fonctionnalités contraintes. Pour plus d’informations, consultez Supplemental Conditions d’utilisation pour les préversions Microsoft Azure.

Microsoft Foundry comprend des évaluateurs intégrés pour évaluer la qualité, la sécurité et la fiabilité des réponses ia tout au long du cycle de vie du développement. Cette référence répertorie tous les évaluateurs disponibles, leurs objectifs et conseils sur la sélection de celui qui convient à votre cas d’usage. Vous pouvez également créer des évaluateurs personnalisés adaptés à vos critères d’évaluation spécifiques.

Évaluateurs à usage général

Evaluator Purpose
Coherence Mesure la cohérence logique et le flux des réponses.
Fluency Mesure la qualité et la lisibilité du langage naturel.

Pour en savoir plus, consultez les évaluateurs à usage général.

Évaluateurs de similarité textuelle

Evaluator Purpose
Similarity Mesure de similarité textuelle assistée par l’IA.
F1 Score La moyenne harmonique de précision et de rappel dans les jetons chevauche la réponse et la vérité terrestre.
BLEU Le score d’évaluation bilingue Understudy pour les mesures de qualité de la traduction se chevauche en n-grammes entre la réponse et la vérité au sol.
GLEU Google-BLEU variante pour les mesures d’évaluation au niveau de la phrase chevauche en n-grammes la réponse et la vérité fondamentale.
ROUGE Recall-Oriented Understudy pour Gisting Evaluation mesure en n-grammes les points de réponse et la vérité de base.
METEOR Métrique pour l’évaluation de la traduction avec des mesures de classement explicite se chevauchent en n-grammes entre la réponse et la vérité au sol.

Pour en savoir plus, consultez évaluateurs de similarité textuelle.

RAG evaluators

Evaluator Purpose
Retrieval Mesure la façon dont le système récupère efficacement les informations pertinentes.
Document Retrieval Mesure la précision dans la récupération donne la vérité au sol.
Groundedness Mesure la façon dont la réponse est fondée dans le contexte récupéré. Retourne un score compris entre 1 et 5 à l’aide d’un jugement basé sur un modèle.
Groundedness Pro (préversion) Mesure si la réponse est ancrée dans le contexte récupéré à l’aide du service Azure AI Sécurité du Contenu. Retourne une passe/échec binaire sans nécessiter de déploiement de modèle.
Relevance Mesure la pertinence de la réponse par rapport à la requête.
Complétivité de la réponse (préversion) Mesures dans quelle mesure la réponse est terminée (pas manquant d’informations critiques) en ce qui concerne la vérité au sol.

Pour en savoir plus, consultez les évaluateurs de génération augmentée de récupération (RAG).

Évaluateurs de risque et de sécurité

Evaluator Purpose
Haine et injustice Identifie le contenu biaisé, discriminatoire ou haineux.
Sexual Identifie le contenu sexuel inapproprié.
Violence Détecte le contenu violent ou l’incitation.
Self-Harm Détecte le contenu qui promeut ou décrit l’auto-préjudice.
Protected Materials Détecte l’utilisation non autorisée du contenu protégé ou protégé par le droit d’auteur.
Attaque indirecte (XPIA) Mesure si la réponse est tombée pour une tentative de jailbreak indirect injectée dans le contexte récupéré.
Code Vulnerability Identifie les problèmes de sécurité dans le code généré.
Ungrounded Attributes Détecte les informations fabriquées ou hallucinés déduites des interactions utilisateur.
Actions interdites (préversion) Mesure la capacité d’un agent IA à s’engager dans des comportements qui violent des actions explicitement interdites.
Fuite de données sensibles (préversion) Mesure la vulnérabilité d’un agent IA pour exposer des informations sensibles.

Pour en savoir plus, consultez les évaluateurs de risque et de sécurité.

Agent evaluators

Evaluator Purpose
Respect des tâches (préversion) Mesure si l’agent suit les tâches identifiées en fonction des instructions système.
Achèvement des tâches (préversion) Mesure si l’agent a correctement terminé la tâche demandée de bout en bout.
Résolution d’intention (préversion) Mesure la précision de l’agent pour identifier et résoudre les intentions de l’utilisateur.
Efficacité de la navigation des tâches Détermine si la séquence d’étapes de l’agent correspond à un chemin optimal ou attendu pour mesurer l’efficacité.
Précision des appels de l’outil Mesure la qualité globale des appels d’outils, notamment la sélection, la correction des paramètres et l’efficacité.
Tool Selection Mesure si l’agent a sélectionné les outils les plus appropriés et efficaces pour une tâche.
Précision de l’entrée de l’outil Vérifie que tous les paramètres d’appel d’outil sont corrects avec des critères stricts, notamment le sol, le type, le format, l’exhaustivité et l’adéquation.
Utilisation de la sortie de l’outil Mesure si l’agent interprète et utilise correctement les sorties de l’outil dans les réponses et les appels suivants.
Réussite de l’appel de l’outil Évalue si tous les appels d’outils s’exécutent correctement sans échecs techniques.

Pour en savoir plus, consultez les évaluateurs de l’agent.

Azure les classateurs OpenAI

Evaluator Purpose
Model Labeler Classifie le contenu à l’aide d’instructions et d’étiquettes personnalisées.
String Checker Effectue des validations de texte flexibles et des critères correspondants.
Text Similarity Évalue la qualité du texte ou détermine la proximité sémantique.
Model Scorer Génère des scores numériques (plage personnalisée) pour le contenu en fonction des instructions personnalisées.

Pour plus d’informations, consultez Azure OpenAI Graders.

Évaluateurs personnalisés (préversion)

En plus des évaluateurs intégrés, vous pouvez créer des évaluateurs personnalisés adaptés à vos critères d’évaluation spécifiques. Les évaluateurs personnalisés vous permettent de définir une logique de scoring unique, des règles de validation et des métriques de qualité qui s’alignent sur vos besoins métier et les besoins spécifiques à l’application.

Pour en savoir plus, consultez Évaluateurs personnalisés.

Combining evaluators

Pour une évaluation complète de la qualité, combinez plusieurs évaluateurs :

  • Applications RAG : Récupération + Soledness + Pertinence + Sécurité du contenu
  • Applications de l’agent : Précision des appels de l’outil + Respect des tâches + Résolution d’intention + Sécurité du contenu
  • Applications de traduction : BLEU + METEOR + Fluency + Cohérence
  • Toutes les applications : Ajoutez des évaluateurs de risques et de sécurité (Haine et Injustice, Sexuel, Violence, Self-Harm) pour des pratiques responsables en IA