Modèles de classements dans Microsoft portail Foundry (préversion)

Important

Les éléments indiqués comme (aperçu) dans cet article sont en aperçu public. Cette préversion est fournie sans contrat de niveau de service et nous ne la recommandons pas pour les environnements de production. Certaines fonctionnalités peuvent ne pas être prises en charge ou avoir des fonctionnalités contraintes. Pour plus d’informations, consultez Conditions d'utilisation supplémentaires pour les versions préliminaires de Microsoft Azure.

Dans le portail Foundry (en préversion), les classements de modèles vous aident à comparer des modèles dans le catalogue de modèles de Foundry en utilisant des benchmarks reconnus comme standards par l'industrie.

Pour commencer, comparez et sélectionnez des modèles à l’aide du classement des modèles dans le portail Foundry.

Vous pouvez passer en revue la méthodologie d’évaluation détaillée pour chaque catégorie de classement :

Lorsque vous trouvez un modèle approprié, vous pouvez ouvrir ses résultats d’évaluation détaillés dans le catalogue de modèles. À partir de là, vous pouvez déployer le modèle, l’essayer dans le terrain de jeu ou l’évaluer sur vos propres données. Les classements prennent en charge l'évaluation des modèles de langage textuel, y compris les grands modèles de langage (LLMs), les petits modèles de langage (SLMs) et les modèles d'intégration.

Les benchmarks de modèle évaluent les LLMs et les SLMs en termes de qualité, de sécurité, de coût et de débit. Les modèles d’incorporation sont évalués à l’aide de benchmarks de qualité standard. Les classements sont mis à jour à mesure que de nouveaux modèles et jeux de données de référence deviennent disponibles.

Étendue de l’évaluation du modèle

Les classements de modèles présentent une sélection organisée de modèles linguistiques basés sur du texte à partir du catalogue de modèles Foundry. Les modèles sont inclus en fonction des critères suivants :

  • Azure Modèles directs hiérarchisés : Azure Modèles directs sont sélectionnés pour la pertinence des scénarios d’IA générative courants.
  • Applicabilité de référence de base : les modèles doivent prendre en charge des tâches de langage à usage général, telles que le raisonnement, les connaissances, la réponse aux questions, le raisonnement mathématique et le codage. Les modèles spécialisés (par exemple, le pliage de protéines ou l’AQ spécifique au domaine) et d’autres modalités ne sont pas pris en charge.

Cette étendue garantit que les classements reflètent les modèles actuels et de haute qualité pertinents pour les scénarios d’IA de base.

Interpréter les résultats du classement

Les classements vous aident à comparer des modèles sur plusieurs dimensions afin de pouvoir choisir le modèle approprié pour votre cas d’usage. Voici quelques instructions pour interpréter les résultats :

  • Indice de qualité : un index de qualité plus élevé indique des performances globales plus fortes dans le raisonnement, le codage, les mathématiques et les tâches de connaissances. Comparez l’index de qualité entre les modèles pour identifier les meilleurs interprètes pour les tâches linguistiques à usage général.
  • Scores de sécurité : les taux de réussite d’attaque inférieurs indiquent des modèles plus robustes. Considérez les scores de sécurité en même temps que les scores de qualité, en particulier pour les applications orientées client, où la sortie dangereuse est une préoccupation importante.
  • Compromis sur les performances : utilisez les métriques de latence et de débit pour comprendre la réactivité réelle d’un modèle. Un modèle avec une haute qualité, mais une latence élevée peut ne pas correspondre aux applications en temps réel.
  • Considérations relatives aux coûts : la métrique de coût estimée utilise un ratio de jeton d’entrée-à-sortie de trois à un. Ajustez vos attentes en fonction du ratio entrée/sortie de votre charge de travail réelle.
  • Classements de scénarios : si votre cas d’usage correspond à un scénario spécifique (par exemple, codage ou mathématique), commencez par le classement du scénario pour rechercher des modèles optimisés pour cette tâche plutôt que de compter uniquement sur l’index de qualité global.

Conseil

Les benchmarks de classement fournissent des comparaisons standardisées entre les modèles à l’aide de jeux de données publics. Pour évaluer les performances du modèle sur vos données et cas d’usage spécifiques, consultez Évaluer vos applications IA génératives.

Benchmarks de qualité des modèles de langage

Foundry évalue la qualité des LLMs et des SLMs à l’aide des scores de précision issus des jeux de données de référence standard qui mesurent les capacités de raisonnement, de connaissances, de réponses aux questions, ainsi que les compétences en mathématiques et en codage.

Index Description
Index de qualité Calculé en faisant la moyenne des scores de précision applicables (exact_match, pass@1, arena_hard) dans les ensembles de données de référence.

Les valeurs d’index de qualité sont comprises entre zéro et un, où les valeurs supérieures indiquent de meilleures performances. Les jeux de données inclus dans l’index de qualité sont les suivants :

Nom du jeu de données Catégorie
bigbench_hard (sous-échantillonné à 1 000 exemples) Raisonnement
chembench Chimie
frontierscience Raisonnement scientifique
gpqa Assurance Qualité (QA)
mbppplus Codage
mmlu_pro (sous-échantillonné à 1 000 exemples) Connaissances générales
musr Raisonnement
tau2_telecom Sélection d'appel d'agents et d'outil

Pour plus d’informations, consultez les scores d’exactitude :

Métrique Description
Précision Les scores de précision sont disponibles au niveau du jeu de données et du modèle. Au niveau du jeu de données, le score est la valeur moyenne d’une métrique de précision calculée sur tous les exemples du jeu de données. La métrique de précision utilisée est exact_match dans tous les cas, à l’exception des jeux de données HumanEval et MBPP qui utilisent une pass@1 métrique. La correspondance exacte compare le texte généré par le modèle avec la réponse correcte en fonction du jeu de données, en signalant l’un si le texte généré correspond exactement et zéro dans le cas contraire. La pass@1 métrique mesure la proportion de solutions de modèle qui réussissent un ensemble de tests unitaires dans une tâche de génération de code. Au niveau du modèle, le score de précision est la moyenne des précisions au niveau du jeu de données pour chaque modèle.

Les scores de précision varient de zéro à un, où les valeurs supérieures sont meilleures.

Benchmarks de sécurité des modèles de langage

Les benchmarks de sécurité sont sélectionnés par le biais d’un processus structuré de filtrage et de validation conçu pour garantir la pertinence et la rigueur. Un benchmark se qualifie pour l’intégration s’il répond aux risques à priorité élevée. Les classements de sécurité incluent des benchmarks qui sont suffisamment fiables pour fournir des signaux significatifs sur des sujets d’intérêt tels qu’ils sont liés à la sécurité. Les classements utilisent HarmBench pour la sécurité des modèles proxy et organisent les classements de scénario comme suit :

Nom du jeu de données Scénario de classement Métrique Interprétation
HarmBench (standard) Comportements dangereux standard Taux de réussite de l’attaque Les valeurs inférieures signifient une meilleure robustesse contre les attaques conçues pour susciter un contenu dangereux standard
HarmBench (contextuel) Comportements nocifs contextuels Taux de réussite de l’attaque Les valeurs inférieures signifient une meilleure robustesse contre les attaques conçues pour susciter un contenu contextuellement dangereux
HarmBench (violations de droits d’auteur) Violations de droits d’auteur Taux de réussite de l’attaque Les valeurs inférieures indiquent une robustesse plus forte contre les violations de droits d’auteur
WMDP Connaissances dans les domaines sensibles Précision Des valeurs plus élevées indiquent une plus grande connaissance dans les domaines sensibles
Toxigen Détection de contenu toxique F1 Score Des valeurs plus élevées indiquent de meilleures performances de détection

Détection de comportement dangereux

Le benchmark HarmBench mesure les comportements nuisibles à l’aide d’invites conçues pour susciter des réponses dangereuses. Il couvre sept catégories sémantiques :

  • Cybercriminalité et intrusion non autorisée
  • Armes chimiques et biologiques ou drogues
  • Violations de droits d’auteur
  • Informations erronées et fausses informations
  • Harcèlement et intimidation
  • Activités illégales
  • Préjudice général

Ces catégories sont regroupées en trois domaines fonctionnels :

  • Comportements dangereux standard
  • Comportements nocifs contextuels
  • Violations de droits d’auteur

Chaque catégorie fonctionnelle est proposée dans un classement de scénario distinct. L’évaluation utilise des invites directes de HarmBench (aucune attaque) et des évaluateurs HarmBench pour calculer le taux de réussite des attaques (ASR). Les valeurs ASR inférieures signifient des modèles plus sûrs. Aucune stratégie d’attaque n’est utilisée pour l’évaluation, et l’évaluation du modèle est effectuée avec les garde-fous Foundry (filtres de contenu précédemment) désactivés.

Détection de contenu toxique

Toxigen est un jeu de données à grande échelle permettant de détecter les paroles haineux contradictoires et implicites. Il comprend des phrases implicitement toxiques et bénignes référençant 13 groupes minoritaires. Foundry utilise des échantillons Toxigen annotés et calcule les scores F1 pour mesurer les performances de classification. Des scores plus élevés indiquent une meilleure détection de contenu toxique. L’évaluation est effectuée avec les garde-fous Foundry (filtres de contenu précédemment) désactivés.

Connaissances relatives au domaine sensible

Le benchmark armes de destruction massive (WMDP) mesure les connaissances du modèle dans des domaines sensibles, notamment la biosecurity, la cybersécurité et la sécurité chimique. Le classement utilise des scores de précision moyens pour la cybersécurité, la biosecurity et la sécurité chimique. Un score de précision WMDP plus élevé indique plus de connaissances sur les capacités dangereuses (comportement pire du point de vue de la sécurité). L’évaluation du modèle est effectuée avec les garde-fous Foundry par défaut (filtres de contenu précédemment) activés. Ces garde-fous détectent et bloquent les atteintes au contenu dans la violence, l’auto-préjudice, la sexualité, la haine et l’injustice, mais ne ciblent pas les catégories de cybersécurité, de biosecurity et de sécurité chimique.

Limitations des benchmarks de sécurité

La sécurité est un sujet complexe avec plusieurs dimensions. Aucun benchmark open source unique ne peut tester ou représenter la sécurité totale d’un système dans tous les scénarios. De plus, de nombreux benchmarks souffrent d’une saturation ou d’un mauvais alignement entre la conception du benchmark et la définition des risques. Certains points de référence n’ont pas non plus de documentation claire sur la façon dont les risques cibles sont conceptualisés et opérationnels, ce qui rend difficile l’évaluation des résultats qui capturent avec précision les nuances des risques réels. Ces limitations peuvent entraîner une surestimation ou une sous-estimation des performances du modèle dans des scénarios de sécurité réels.

Benchmarks de performances des modèles de langage

Les métriques de performances sont agrégées sur 14 jours à l’aide de 24 essais par jour, avec deux demandes par essai envoyées à intervalles d’une heure. Sauf indication contraire, les paramètres par défaut suivants s’appliquent aux déploiements d’API serverless et Azure OpenAI :

Paramètre Valeur Applicable à
Région USA Est/USA Est2 Déploiements d’API serverless et Azure OpenAI
Limite de débit des jetons par minute (TPM) 30k (180 RPM basé sur Azure OpenAI) pour le non-raisonnement et 100k pour les modèles de raisonnement
N/A (déploiements d’API serverless)
Pour les modèles Azure OpenAI, la sélection est disponible pour les utilisateurs avec des plages de limites de taux en fonction du type de déploiement (API serverless, global, standard global, et ainsi de suite.)
Pour les déploiements d’API serverless, ce paramètre est abstrait.
Nombre de demandes Deux demandes par essai chaque heure (24 essais par jour) déploiements d’API serverless, Azure OpenAI
Nombre d’essais/réalisations 14 jours avec 24 essais par jour pour un total de 336 essais déploiements d’API serverless, Azure OpenAI
Longueur de l'invite ou du contexte Longueur modérée déploiements d’API serverless, Azure OpenAI
Nombre de jetons traités (modérés) Ratio 80:20 pour les jetons d’entrée à sortie, c’est-à-dire 800 jetons d’entrée à 200 jetons de sortie. déploiements d’API serverless, Azure OpenAI
Nombre de demandes simultanées Une (les demandes sont envoyées séquentiellement l’une après l’autre) déploiements d’API serverless, Azure OpenAI
Données Synthétique (invites d’entrée préparées à partir du texte statique) déploiements d’API serverless, Azure OpenAI
Type de déploiement API sans serveur Applicable uniquement pour Azure OpenAI
Diffusion en continu Vrai S’applique aux déploiements d’API serverless et Azure OpenAI. Pour les modèles déployés via un calcul managé ou pour les points de terminaison lorsque la diffusion en continu n’est pas prise en charge, le TTFT est représenté comme P50 de la métrique de latence.
SKU Standard_NC24ads_A100_v4 (24 cœurs, 220 Go de RAM, stockage 64 Go) Applicable uniquement pour le calcul managé (pour estimer les métriques de coût et de performances)

Les performances des LLM et des SLM sont évaluées suivant les métriques suivantes :

Métrique Description
Moyenne de latence Temps moyen en secondes pour traiter une requête, calculée sur plusieurs requêtes. Une requête est envoyée au point de terminaison toutes les heures pendant deux semaines, et la moyenne est calculée.
Latence P50 Latence médiane (50e centile). 50% de demandes terminées dans ce délai.
Latence P90 Latence au 90ème percentile. 90% de demandes terminées dans ce délai.
Latence P95 Latence du 95e centile. 95% de demandes terminées dans ce délai.
Latence P99 Latence du 99e centile. 99% de demandes terminées dans ce délai.
Débit GTPS Les jetons générés par seconde (GTPS) sont le nombre de jetons de sortie qui sont générés par seconde à partir du moment où la requête est envoyée au point de terminaison.
Débit TTPS Le nombre total de jetons par seconde (TTPS) est le nombre total de jetons traités par seconde, y compris à partir de l’invite d’entrée et des jetons de sortie générés. Pour les modèles qui ne prennent pas en charge la diffusion en continu, l’heure du premier jeton (ttft) représente la valeur P50 de la latence (temps nécessaire pour recevoir la réponse)
TTFT de latence La durée totale du premier token (TTFT) est le temps nécessaire pour que le premier token dans la réponse soit retourné depuis l'end-point lorsque le streaming est activé.
Durée entre les jetons Cette métrique est le temps entre les jetons reçus.

Foundry récapitule les performances à l’aide de :

Métrique Description
Latence Temps moyen jusqu'au premier token. Plus faible est mieux.
Débit Jetons générés moyennement par seconde. Plus élevé est meilleur.

Pour les métriques de performances telles que la latence ou le débit, la durée du premier jeton et les jetons générés par seconde donnent une meilleure idée globale des performances et du comportement typiques du modèle. Les numéros de performances sont actualisés régulièrement pour refléter les dernières configurations de déploiement.

Coûts de référence des modèles de langage

Les benchmarks de coût mesurent le coût réel d’exécution de chaque modèle sur les jeux de données de référence de qualité, plutôt qu’un coût estimé en fonction de la tarification des jetons.

Le coût du benchmark est calculé à l’aide des points suivants :

  • Nombre réel de jetons d’entrée, de raisonnement et de sortie consommés pendant l’exécution du benchmark.
  • Configuration d’effort de raisonnement spécifique au modèle utilisée pour l’évaluation (généralement high ou xhigh).
  • Caractéristiques et complexité du jeu de données, qui affectent l’utilisation et le runtime des jetons.

Contrairement aux estimations basées sur un ratio de jeton fixe, cette approche reflète le coût réel de bout en bout de l’exécution des charges de travail de référence.

Comment interpréter les résultats des coûts

  • Les coûts sont signalés en USD par exécution de référence sur les ensembles de données de qualité standard.
  • Les valeurs représentent un coût d’exécution réel et permettent une comparaison directe entre les modèles.
  • Les valeurs inférieures indiquent des performances plus rentables sur la suite de benchmarks.

Comparaison des performances du classement des scénarios

Les classements de performances de scénarios regroupent des jeux de données de référence selon des objectifs communs d'évaluation du monde réel. Vous pouvez rapidement identifier les points forts et les faiblesses d’un modèle en cas d’usage. Chaque scénario agrège un ou plusieurs jeux de données d’évaluation publics.

Utilisez le tableau suivant pour rechercher votre cas d’usage dans la colonne Scénario , puis passez en revue les jeux de données de benchmark associés et ce que les résultats indiquent. Le tableau suivant récapitule les classements de scénario disponibles et leurs jeux de données et descriptions associés :

Scénario Ensembles de données Description
Comportement dangereux standard HarmBench (standard) Taux de réussite des attaques sur les invites dangereuses standard. Plus faible est mieux. Consultez la détection des comportements nuisibles.
Comportement contextuellement dangereux HarmBench (contextuel) Taux de réussite des attaques sur les invites contextuellement nuisibles. Plus faible est mieux. Consultez la détection des comportements nuisibles.
Violations de droits d’auteur HarmBench (copyright) Taux de réussite des attaques pour violation des droits d'auteur. Plus faible est mieux. Consultez la détection des comportements nuisibles.
Connaissances dans les domaines sensibles WMDP (biosecurity, sécurité chimique, cybersécurité) Précision sur trois sous-ensembles de domaines sensibles. Une précision plus élevée indique une connaissance plus approfondie des fonctionnalités sensibles. Consultez les connaissances relatives au domaine sensible.
Détection de toxicité ToxiGen (annoté) Score F1 pour la capacité de détection de contenu toxique. Plus élevé est meilleur. Consultez la détection de contenu toxique.
Raisonnement BIG-Bench Hard (1000 sous-échantillon) Évaluation des capacités de raisonnement. Les valeurs plus élevées sont meilleures.
Codage BigCodeBench (instruct), LiveBench (codage), LiveCodeBench moyenMBPPPlus Mesure la précision des tâches liées au code. Les valeurs plus élevées sont meilleures.
Connaissances générales MMLU-Pro (sous-échantillon anglais de 1K) 1 000-exemple sous-échantillon uniquement en anglais de MMLU-Pro.
Question &réponse Arena-Hard, GPQA (diamant) QA de préférence humaine antagoniste (Arena-Hard) et QA multi-discipline de niveau avancé (GPQA diamant). Les valeurs plus élevées sont meilleures.
Mathématiques MATH (500 sous-échantillons) Mesure les capacités de raisonnement mathématique des modèles de langage. Les valeurs plus élevées sont meilleures.
Ancrage TruthfulQA (MC1) Évaluation du bien-fondé et de la véracité à choix multiples des modèles linguistiques. Les valeurs plus élevées sont meilleures.

Benchmarks de qualité des modèles incorporés

L’index de qualité des modèles incorporés est défini comme les scores de précision moyen d’un ensemble complet de jeux de données de référence d’API serverless ciblant la récupération des informations, le clustering de documents et les tâches de synthèse.

Métrique Description
Précision La précision est la proportion de prédictions correctes parmi le nombre total de prédictions traitées.
F1 Score Le score F1 est la moyenne pondérée de la précision et du rappel, où la meilleure valeur est une (précision parfaite et rappel), et le pire est zéro.
Précision moyenne (MAP) MAP évalue la qualité des systèmes de classement et de recommandation. Il mesure à la fois la pertinence des éléments suggérés et le bon fonctionnement du système pour placer des éléments plus pertinents en haut. Les valeurs peuvent aller de zéro à un, et plus la MAP est élevée, mieux le système peut placer les éléments pertinents en haut de la liste.
Gain cumulé normalisé réduit (NDCG) NDCG évalue la capacité d’un algorithme Machine Learning à trier les éléments en fonction de leur pertinence. Il compare les classements à un ordre idéal où tous les éléments pertinents se trouvent en haut de la liste, où k est la longueur de liste tout en évaluant la qualité de classement. Dans ces benchmarks, k=10, indiqué par une métrique de ndcg_at_10, ce qui signifie que les 10 premiers éléments sont évalués.
Précision La précision mesure la capacité du modèle à identifier correctement les instances d’une classe particulière. La précision indique la fréquence à laquelle un modèle Machine Learning est correct lors de la prédiction de la classe cible.
Corrélation Spearman La corrélation Spearman basée sur la similarité cosinus est calculée en calculant d’abord la similarité cosinus entre les variables, puis en classant ces scores et en utilisant les rangs pour calculer la corrélation Spearman.
Mesure V La mesure V est une métrique utilisée pour évaluer la qualité du clustering. La mesure V est calculée comme une moyenne harmonique de l’homogénéité et de l’exhaustivité, garantissant un équilibre entre les deux pour un score significatif. Les scores possibles se situent entre zéro et un, un indiquant un étiquetage parfaitement complet.

Calcul des scores

Scores individuels

Les résultats du benchmark proviennent de jeux de données publics couramment utilisés pour l’évaluation du modèle de langage. Dans la plupart des cas, les données sont hébergées dans GitHub référentiels gérés par les créateurs ou les conservateurs des données. Les pipelines d’évaluation de Foundry téléchargent des données à partir de leurs sources d’origine, extraient des invites de chaque exemple de ligne, génèrent des réponses de modèle, puis calculent les métriques de précision pertinentes.

La construction d’invite suit les meilleures pratiques pour chaque jeu de données, comme spécifié par le document présentant les normes du jeu de données et du secteur. Dans la plupart des cas, chaque invite contient plusieurs exemples, c’est-à-dire plusieurs exemples de questions complètes et de réponses pour préparer le modèle pour la tâche. Le nombre de prises de vue varie selon le jeu de données et suit la méthodologie spécifiée dans la publication originale de chaque jeu de données. Les pipelines d'évaluation créent des échantillons en échantillonnant des questions et des réponses à partir d'une partie des données exclue de l'évaluation.

Limitations du benchmark

Tous les benchmarks présentent des limitations inhérentes que vous devez prendre en compte lors de l’interprétation des résultats :

  • Benchmarks de qualité : les jeux de données de référence peuvent devenir saturés au fil du temps, car les modèles sont formés ou paramétrés sur des données similaires. Les résultats de l'évaluation peuvent également varier en fonction de la construction d'une commande et du nombre d'exemples de quelques échantillons utilisés.
  • Tests de performance : les mesures sont collectées à l’aide de charges de travail synthétiques avec un ratio fixe de jetons d'entrée à la sortie et des déploiements dans une seule région. Les performances réelles peuvent différer en fonction des modèles de charge de travail, de la concurrence, de la région et de la configuration du déploiement.
  • Benchmarks de coût : les estimations de coûts sont basées sur un rapport de jeton d’entrée à sortie de trois à un et des prix actuels au moment de la mesure. Les coûts réels dépendent de votre charge de travail et sont soumis à des modifications tarifaires.