Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Important
Les éléments marqués (préversion) dans cet article sont actuellement en préversion publique. Cette préversion est fournie sans contrat de niveau de service et nous ne le recommandons pas pour les charges de travail de production. Certaines fonctionnalités peuvent ne pas être prises en charge ou avoir des fonctionnalités contraintes. Pour plus d’informations, consultez Supplemental Conditions d’utilisation pour les préversions Microsoft Azure.
Microsoft Foundry comprend des évaluateurs intégrés pour évaluer la qualité, la sécurité et la fiabilité des réponses ia tout au long du cycle de vie du développement. Cette référence répertorie tous les évaluateurs disponibles, leurs objectifs et conseils sur la sélection de celui qui convient à votre cas d’usage. Vous pouvez également créer des évaluateurs personnalisés adaptés à vos critères d’évaluation spécifiques.
Évaluateurs à usage général
| Evaluator | Purpose |
|---|---|
| Coherence | Mesure la cohérence logique et le flux des réponses. |
| Fluency | Mesure la qualité et la lisibilité du langage naturel. |
Pour en savoir plus, consultez les évaluateurs à usage général.
Évaluateurs de similarité textuelle
| Evaluator | Purpose |
|---|---|
| Similarity | Mesure de similarité textuelle assistée par l’IA. |
| F1 Score | La moyenne harmonique de précision et de rappel dans les jetons chevauche la réponse et la vérité terrestre. |
| BLEU | Le score d’évaluation bilingue Understudy pour les mesures de qualité de la traduction se chevauche en n-grammes entre la réponse et la vérité au sol. |
| GLEU | Google-BLEU variante pour les mesures d’évaluation au niveau de la phrase chevauche en n-grammes la réponse et la vérité fondamentale. |
| ROUGE | Recall-Oriented Understudy pour Gisting Evaluation mesure en n-grammes les points de réponse et la vérité de base. |
| METEOR | Métrique pour l’évaluation de la traduction avec des mesures de classement explicite se chevauchent en n-grammes entre la réponse et la vérité au sol. |
Pour en savoir plus, consultez évaluateurs de similarité textuelle.
RAG evaluators
| Evaluator | Purpose |
|---|---|
| Retrieval | Mesure la façon dont le système récupère efficacement les informations pertinentes. |
| Document Retrieval | Mesure la précision dans la récupération donne la vérité au sol. |
| Groundedness | Mesure la façon dont la réponse est fondée dans le contexte récupéré. Retourne un score compris entre 1 et 5 à l’aide d’un jugement basé sur un modèle. |
| Groundedness Pro (préversion) | Mesure si la réponse est ancrée dans le contexte récupéré à l’aide du service Azure AI Sécurité du Contenu. Retourne une passe/échec binaire sans nécessiter de déploiement de modèle. |
| Relevance | Mesure la pertinence de la réponse par rapport à la requête. |
| Complétivité de la réponse (préversion) | Mesures dans quelle mesure la réponse est terminée (pas manquant d’informations critiques) en ce qui concerne la vérité au sol. |
Pour en savoir plus, consultez les évaluateurs de génération augmentée de récupération (RAG).
Évaluateurs de risque et de sécurité
| Evaluator | Purpose |
|---|---|
| Haine et injustice | Identifie le contenu biaisé, discriminatoire ou haineux. |
| Sexual | Identifie le contenu sexuel inapproprié. |
| Violence | Détecte le contenu violent ou l’incitation. |
| Self-Harm | Détecte le contenu qui promeut ou décrit l’auto-préjudice. |
| Protected Materials | Détecte l’utilisation non autorisée du contenu protégé ou protégé par le droit d’auteur. |
| Attaque indirecte (XPIA) | Mesure si la réponse est tombée pour une tentative de jailbreak indirect injectée dans le contexte récupéré. |
| Code Vulnerability | Identifie les problèmes de sécurité dans le code généré. |
| Ungrounded Attributes | Détecte les informations fabriquées ou hallucinés déduites des interactions utilisateur. |
| Actions interdites (préversion) | Mesure la capacité d’un agent IA à s’engager dans des comportements qui violent des actions explicitement interdites. |
| Fuite de données sensibles (préversion) | Mesure la vulnérabilité d’un agent IA pour exposer des informations sensibles. |
Pour en savoir plus, consultez les évaluateurs de risque et de sécurité.
Agent evaluators
| Evaluator | Purpose |
|---|---|
| Respect des tâches (préversion) | Mesure si l’agent suit les tâches identifiées en fonction des instructions système. |
| Achèvement des tâches (préversion) | Mesure si l’agent a correctement terminé la tâche demandée de bout en bout. |
| Résolution d’intention (préversion) | Mesure la précision de l’agent pour identifier et résoudre les intentions de l’utilisateur. |
| Efficacité de la navigation des tâches | Détermine si la séquence d’étapes de l’agent correspond à un chemin optimal ou attendu pour mesurer l’efficacité. |
| Précision des appels de l’outil | Mesure la qualité globale des appels d’outils, notamment la sélection, la correction des paramètres et l’efficacité. |
| Tool Selection | Mesure si l’agent a sélectionné les outils les plus appropriés et efficaces pour une tâche. |
| Précision de l’entrée de l’outil | Vérifie que tous les paramètres d’appel d’outil sont corrects avec des critères stricts, notamment le sol, le type, le format, l’exhaustivité et l’adéquation. |
| Utilisation de la sortie de l’outil | Mesure si l’agent interprète et utilise correctement les sorties de l’outil dans les réponses et les appels suivants. |
| Réussite de l’appel de l’outil | Évalue si tous les appels d’outils s’exécutent correctement sans échecs techniques. |
Pour en savoir plus, consultez les évaluateurs de l’agent.
Azure les classateurs OpenAI
| Evaluator | Purpose |
|---|---|
| Model Labeler | Classifie le contenu à l’aide d’instructions et d’étiquettes personnalisées. |
| String Checker | Effectue des validations de texte flexibles et des critères correspondants. |
| Text Similarity | Évalue la qualité du texte ou détermine la proximité sémantique. |
| Model Scorer | Génère des scores numériques (plage personnalisée) pour le contenu en fonction des instructions personnalisées. |
Pour plus d’informations, consultez Azure OpenAI Graders.
Évaluateurs personnalisés (préversion)
En plus des évaluateurs intégrés, vous pouvez créer des évaluateurs personnalisés adaptés à vos critères d’évaluation spécifiques. Les évaluateurs personnalisés vous permettent de définir une logique de scoring unique, des règles de validation et des métriques de qualité qui s’alignent sur vos besoins métier et les besoins spécifiques à l’application.
Pour en savoir plus, consultez Évaluateurs personnalisés.
Combining evaluators
Pour une évaluation complète de la qualité, combinez plusieurs évaluateurs :
- Applications RAG : Récupération + Soledness + Pertinence + Sécurité du contenu
- Applications de l’agent : Précision des appels de l’outil + Respect des tâches + Résolution d’intention + Sécurité du contenu
- Applications de traduction : BLEU + METEOR + Fluency + Cohérence
- Toutes les applications : Ajoutez des évaluateurs de risques et de sécurité (Haine et Injustice, Sexuel, Violence, Self-Harm) pour des pratiques responsables en IA
Related content
- Observabilité dans l’IA générative
- Évaluateurs à usage général
- Évaluateurs de similarité textuelle
- Évaluateurs de génération augmentée de récupération (RAG)
- Évaluateurs de risque et de sécurité
- Agent evaluators
- Azure OpenAI Graders
- Custom evaluators
- Évaluer les applications IA génératives dans Foundry