Microsoft Foundry ポータル (プレビュー) (クラシック) 内のモデルランキング

現在表示中:Foundry (クラシック) ポータルのバージョン - 新しい Foundry ポータルのバージョンに切り替える

重要

この記事でマークされている項目 (プレビュー) は、現在パブリックプレビュー段階です。このプレビューはサービスレベルアグリーメントなしで提供されており、運用環境のワークロードにはお勧めしません。特定の機能がサポートされていないか、機能が制限されている可能性があります。詳細については、「Microsoft Azure プレビューの使用条件を参照してください。

Microsoft Foundry ポータルのモデルランキング (プレビュー) は、業界標準のベンチマークを使用して Foundry model カタログのモデルを比較するのに役立ちます。モデルカタログの [モデルランキング] セクションから、ランキングを参照して、使用可能なモデルを次の方法で比較できます。

品質、安全性、コスト、パフォーマンスのランキングを使用して、1 つのメトリック (品質、安全性、コスト、またはスループット) で主要なモデルを識別します。
品質とコストなど、2 つのメトリック間のパフォーマンスを比較するトレードオフのグラフ
特定のユースケースに合わせて配置されたモデルを検索するシナリオ別のランキング

適切なモデルが見つかると、その 詳細ベンチマーク結果を モデルカタログで開くことができます。そこから、モデルをデプロイしたり、プレイグラウンドで試したり、独自のデータで評価することができます。ランキングでは、テキスト言語モデル (大きな言語モデル (LLM) と小さな言語モデル (SLB) を含む) と埋め込みモデルのベンチマークがサポートされています。

モデルベンチマークでは、品質、安全性、コスト、スループットにわたって LLM と SLB を評価します。埋め込みモデルは、標準の品質ベンチマークを使用して評価されます。ランキングは、新しいモデルとベンチマークデータセットが使用可能になると更新されます。

ベンチマークモデルの範囲

モデルランキングには、Foundry モデルカタログから選択されたテキストベースの言語モデルが用意されています。モデルは、次の条件に基づいて含まれます。

Azureダイレクトモデルの優先順位付け: Azureダイレクトモデルは、一般的な生成 AI シナリオとの関連性のために選択されます。
コアベンチマークの適用性: モデルは、推論、知識、質問の回答、数学的推論、コーディングなどの汎用言語タスクをサポートする必要があります。特殊なモデル (タンパク質フォールディングやドメイン固有の QA など) やその他のモダリティはサポートされていません。

このスコープにより、ランキングには、コア AI シナリオに関連する最新の高品質モデルが確実に反映されます。

言語モデルの品質ベンチマーク

Foundry は、推論、知識、質問の回答、数学、コーディングの機能を測定する標準ベンチマークデータセットの精度スコアを使用して、LLM と SLB の品質を評価します。

インデックス	説明
品質インデックス	ベンチマークデータセット間で適用可能な精度スコア (`exact_match`、 `pass@1`、 `arena_hard`) を平均して計算されます。

品質インデックス値の範囲は 0 から 1 で、値が大きいほどパフォーマンスが向上します。品質インデックスに含まれるデータセットは次のとおりです。

データセット名	カテゴリ
bigbench_hard (1,000 個の例にダウンサンプリング)	推論
chembench	化学
frontierscience	科学的推論
gpqa	QA
mbppplus	コーディング
mmlu_pro (サンプル数を1,000に減らして)	一般的な知識
musr	推論
tau2_telecom	エージェントとツールの呼び出しの選択

精度スコアの詳細を参照してください。

メトリック説明

精度精度スコアは、データセットとモデルレベルで使用できます。データセットレベルでは、スコアはデータセット内のすべての例で計算された精度メトリックの平均値です。使用される精度メトリックは、すべてのケースでexact_matchです。ただし、HumanEvalとMBPPのデータセットはpass@1を使用しています。完全一致では、モデルで生成されたテキストがデータセットに従って正しい回答と比較され、生成されたテキストが回答と正確に一致する場合は 1 つ、それ以外の場合は 0 を報告します。 pass@1 メトリックは、コード生成タスクで一連の単体テストに合格するモデルソリューションの割合を測定します。モデルレベルでは、精度スコアは各モデルのデータセットレベルの精度の平均です。

メトリック	説明
精度	精度スコアは、データセットとモデルレベルで使用できます。データセットレベルでは、スコアはデータセット内のすべての例で計算された精度メトリックの平均値です。使用される精度メトリックは、すべてのケースで`exact_match`です。ただし、HumanEvalとMBPPのデータセットは`pass@1`を使用しています。完全一致では、モデルで生成されたテキストがデータセットに従って正しい回答と比較され、生成されたテキストが回答と正確に一致する場合は 1 つ、それ以外の場合は 0 を報告します。 `pass@1` メトリックは、コード生成タスクで一連の単体テストに合格するモデルソリューションの割合を測定します。モデルレベルでは、精度スコアは各モデルのデータセットレベルの精度の平均です。

精度スコアの範囲は 0 から 1 で、値の方が高い方が適しています。

言語モデルの安全性ベンチマーク

安全性ベンチマークは、関連性と厳格性の両方を確保するように設計された構造化されたフィルター処理と検証プロセスを通じて選択されます。ベンチマークは、優先度の高いリスクに対処する場合、オンボードの対象となります。安全ランキングには、安全性に関連する関心のあるトピックに関する意味のあるシグナルを提供するのに十分な信頼性の高いベンチマークが含まれます。ランキングではHarmBenchを使用してモデルの安全性を評価し、シナリオのランキングは次のように整理されます。

データセット名	ランキングシナリオ	メトリック	解釈
HarmBench (標準)	標準的な有害な動作	攻撃の成功率	値を小さくすると、標準的な有害なコンテンツを引き出すために設計された攻撃に対する堅牢性が向上します
HarmBench (コンテキスト)	コンテキストに依存する有害な動作	攻撃の成功率	値を小さくすると、コンテキストに有害なコンテンツを引き出すために設計された攻撃に対する堅牢性が向上します
HarmBench (著作権違反)	著作権違反	攻撃の成功率	値を小さくすると、著作権侵害に対する堅牢性が高いことを示します
WMDP	機密性の高いドメインの知識	精度	値が大きいほど、機密性の高いドメインの知識が高いことを示します
Toxigen	有毒なコンテンツの検出	F1 スコア	値が大きいほど、検出パフォーマンスが向上します

有害な動作の検出

HarmBench ベンチマークは、安全でない応答を引き出すために設計されたプロンプトを使用して有害な動作を測定します。これには、次の 7 つのセマンティックカテゴリが含まれます。

サイバー犯罪と不正侵入
化学および生物兵器または薬物
著作権違反
誤った情報と情報漏えい
嫌がらせといじめ
違法なアクティビティ
一般的な損害

これらのカテゴリは、次の 3 つの機能領域にグループ化されます。

標準的な有害な動作
コンテキストに依存する有害な動作
著作権違反

各機能カテゴリは、個別のシナリオランキングで紹介されています。評価では、HarmBench (攻撃なし) と HarmBench エバリュエーターからの直接プロンプトを使用して、攻撃成功率 (ASR) を計算します。 ASR 値が小さいほど、モデルの安全性が高くなります。評価に攻撃戦略は使用されません。Foundry Guardrails (以前のコンテンツフィルター) がオフになっている状態でモデルベンチマークが実行されます。

有毒なコンテンツの検出

Toxigen は、敵対的で暗黙的なヘイトスピーチを検出するための大規模なデータセットです。これには、13 の少数派グループを参照する暗黙的に有毒で無害な文が含まれます。 Foundry では、注釈付きの Toxigen サンプルを使用し、F1 スコアを計算して分類のパフォーマンスを測定します。スコアが高いほど、有毒なコンテンツの検出が優れていることを示します。ベンチマークは、Foundry Guardrails (以前のコンテンツフィルター) がオフになっている状態で実行されます。

機密性の高いドメインの知識

大量破壊兵器プロキシ (WMDP) ベンチマークは、バイオセキュリティ、サイバーセキュリティ、化学セキュリティなどの機密性の高い領域のモデル知識を測定します。ランキングでは、サイバーセキュリティ、バイオセキュリティ、化学セキュリティ全体の平均精度スコアが使用されます。 WMDP 精度スコアが高いほど、危険な機能に関するより多くの知識が示されます (安全性の観点から悪い動作)。モデルベンチマークは、既定の Foundry Guardrails (以前のコンテンツフィルター) を使用して実行されます。これらのガードレールは、暴力、自傷行為、性的、嫌悪、不公平に関するコンテンツの損害を検出してブロックしますが、サイバーセキュリティ、バイオセキュリティ、化学セキュリティのカテゴリは対象としません。

安全ベンチマークの制限事項

安全性は、複数のディメンションを持つ複雑なトピックです。すべてのシナリオでシステムの完全な安全性をテストまたは表すことができるオープンソースベンチマークは 1 つもありません。さらに、多くのベンチマークは、ベンチマーク設計とリスク定義の間の飽和またはミスアラインメントに苦しんでいます。また、一部のベンチマークでは、ターゲットのリスクがどのように概念化され運用化されているかに関する明確なドキュメントがないため、結果が実際のリスクの微妙な部分を正確に把握しているかどうかを評価することが困難になります。これらの制限により、実際の安全シナリオでモデルのパフォーマンスを過大評価または過小評価する可能性があります。

言語モデルのパフォーマンスベンチマーク

パフォーマンスメトリックは、1 日あたり 24 回の試用版を使用して 14 日間にわたって集計され、試用版ごとに 2 つの要求が 1 時間間隔で送信されます。特に明記されていない限り、次の既定のパラメーターは、サーバーレス API デプロイと Azure OpenAI の両方に適用されます。

パラメーター	値	適用対象
地域	米国東部/米国東部 2	サーバーレス API デプロイおよび Azure OpenAI
1 分あたりのトークン数 (TPM) レート制限	非推論の場合は 30k (Azure OpenAI に基づく 180 RPM)、推論モデルでは 100k N/A (サーバーレス API デプロイ)	Azure OpenAI モデルの場合、デプロイの種類 (サーバーレス API、グローバル、グローバル標準など) に基づいてレート制限の範囲を持つユーザーが選択できます。サーバーレス API デプロイの場合、この設定は抽象化されます。
要求の数	1 時間ごとに試用版で 2 つの要求 (1 日あたり 24 試用版)	サーバーレス API のデプロイ、Azure OpenAI
試行回数/実行回数	336 回の実行に対して 1 日あたり 24 回の試用版を含む 14 日間	サーバーレス API のデプロイ、Azure OpenAI
プロンプト/コンテキストの長さ	中程度の長さ	サーバーレス API のデプロイ、Azure OpenAI
処理されたトークンの数 (中程度)	入力トークンと出力トークンの 80:20 の比率、つまり 800 個の入力トークンから 200 個の出力トークン。	サーバーレス API のデプロイ、Azure OpenAI
同時要求の数	1 つ (要求は順番に送信されます)	サーバーレス API のデプロイ、Azure OpenAI
データ	合成 (静的テキストから準備された入力プロンプト)	サーバーレス API のデプロイ、Azure OpenAI
デプロイの種類	サーバーレス API	Azure OpenAI にのみ適用されます
ストリーミング	True	サーバーレス API のデプロイと OpenAI Azure適用されます。マネージドコンピューティングを使用してデプロイされたモデル、またはストリーミングがサポートされていないエンドポイントの場合、TTFT は P50 の待機時間メトリックとして表されます。
SKU	Standard_NC24ads_A100_v4 (24 コア、220 GB RAM、64 GB ストレージ)	マネージドコンピューティングにのみ適用されます (コストとパフォーマンスのメトリックを見積もるために)

LLM と SLB のパフォーマンスは、次のメトリックで評価されます。

メトリック	説明
待機時間の平均	要求を処理するための平均時間 (秒単位)。複数の要求で計算されます。 2 週間ごとに 1 時間ごとに要求がエンドポイントに送信され、平均が計算されます。
レイテンシー P50	中央値 (50 パーセンタイル) の待機時間。この時間内に 50% の要求が完了します。
待機時間 P90	90 パーセンタイルレイテンシーこの時間内に 90% の要求が完了します。
レイテンシ P95	95パーセンタイルレイテンシ。この時間内に 95% の要求が完了します。
遅延 P99	99 パーセンタイル遅延。この時間内に 99% の要求が完了します。
スループット GTPS	生成される 1 秒あたりのトークン数 (GTPS) は、要求がエンドポイントに送信された時点から 1 秒あたりに生成される出力トークンの数です。
スループット TTPS	1 秒あたりの合計トークン数 (TTPS) は、入力プロンプトと生成された出力トークンの両方を含む、1 秒あたりに処理された合計トークンの数です。ストリーミングをサポートしていないモデルの場合、Time to First Token (ttft) は待機時間の P50 値 (応答の受信にかかった時間) を表します。
待機時間 TTFT	最初のトークンへの合計時間 (TTFT) は、ストリーミングが有効になっているときにエンドポイントから返される応答の最初のトークンにかかった時間です。
トークン間の時間	このメトリックは、受信したトークン間の時間です。

Foundry は、次を使用してパフォーマンスを要約します。

メトリック	説明
遅延	最初のトークンまでの平均時間。低い方が良いです。
スループット	1 秒あたりの平均生成トークン数。高い方が良いです。

待機時間やスループットなどのパフォーマンスメトリックでは、最初のトークンまでの時間と 1 秒あたりの生成されたトークンによって、モデルの一般的なパフォーマンスと動作をより全体的に把握できます。パフォーマンス番号は、最新のデプロイ構成を反映するように定期的に更新されます。

言語モデルのコストベンチマーク

コストベンチマークは、トークンの価格に基づく推定コストではなく、 品質ベンチマークデータセットで各モデルを実行するための実際のコストを測定します。

ベンチマークコストは、次を使用して計算されます。

ベンチマークの実行中に使用された入力、推論、および出力トークンの実際の数。
評価に使用されるモデル固有の推論作業構成 (通常は high または xhigh)。
トークンの使用とランタイムに影響を与えるデータセットの特性と複雑さ。

固定トークン比率に基づく見積もりとは異なり、このアプローチはベンチマークワークロードを実行する場合の真のエンドツーエンドのコストを反映しています。

コストの結果を解釈する方法

標準品質データセット全体で 、ベンチマーク実行ごとにコストが米国ドル で報告されます。
値は実際の実行コストを表し、モデル間の直接比較を可能にします。
値を小さくすると、ベンチマークスイートのパフォーマンスがコスト効率が高くなります。

シナリオランキングベンチマーク

シナリオランキングは、一般的な実際の評価目標によってベンチマークデータセットをグループ化します。ユースケースによって、モデルの長所と短所をすばやく特定できます。各シナリオでは、1 つ以上のパブリックベンチマークデータセットが集計されます。

次の表を使用して、[ シナリオ ] 列でユースケースを見つけ、関連するベンチマークデータセットと結果が示す内容を確認します。次の表は、使用可能なシナリオのランキングとそれに関連するデータセットと説明をまとめたものです。

シナリオ	データセット	説明
標準的な有害な動作	HarmBench (標準)	標準的な有害なプロンプトに対する攻撃の成功率。低い方が良いです。有害な動作の検出を参照してください。
コンテキストに依存する有害な動作	HarmBench (コンテキスト)	コンテキストに応じた有害なプロンプトに対する攻撃の成功率。低い方が良いです。有害な動作の検出を参照してください。
著作権違反	HarmBench (著作権)	著作権違反のプロンプトの攻撃成功率。低い方が良いです。有害な動作の検出を参照してください。
機密性の高いドメインの知識	WMDP (バイオセキュリティ、化学セキュリティ、サイバーセキュリティ)	3 つの機密性の高いドメインサブセットの精度。精度が高いほど、機密性の高い機能に関する知識が増えます。機密性の高いドメインの知識を参照してください。
毒性検出	ToxiGen (注釈付き)	毒性コンテンツ検出機能の F1 スコア。高い方が良いです。「有害なコンテンツの検出」を参照してください。
推論	BIG-Bench ハード (1000 サブサンプル)	推論機能の評価。値を大きくした方が良いです。
コーディング	BigCodeBench (指示)、 LiveBench (コーディング)、 LiveCodeBench medium MBPPPlus	コード関連のタスクの精度を測定します。値を大きくした方が良いです。
一般的な知識	MMLU-Pro (1K 英語サブサンプル)	MMLU-Pro の英語のみのサブサンプルの 1,000 例。
質問と回答	アリーナハード GPQA (ダイヤモンド)	人間の好みを考慮した敵対的QA (Arena-Hard) と大学院レベルの学際的QA (GPQA ダイヤモンド)。値を大きくした方が良いです。
数学	MATH (500 サブサンプル)	言語モデルの数学的推論機能を測定します。値を大きくした方が良いです。
安定性	TruthfulQA (MC1)	言語モデルの複数選択の根拠/真実性評価。値を大きくした方が良いです。

埋め込みモデルの品質ベンチマーク

埋め込みモデルの品質インデックスは、情報取得、ドキュメントクラスタリング、および要約タスクを対象とする、サーバーレス API ベンチマークデータセットの包括的なセットの平均精度スコアとして定義されます。

メトリック	説明
精度	精度は、処理された予測の合計数に対する正しい予測の割合です。
F1 スコア	F1 スコアは精度と再現率の加重平均です。最適な値は 1 (完全な精度と再現率) で、最悪の値はゼロです。
平均精度 (MAP)	MAP は、ランク付けシステムとレコメンダーシステムの品質を評価します。これは、提案された項目の関連性と、システムがより関連性の高い項目を上部に配置する際の優れた点の両方を測定します。値の範囲は 0 から 1 までです。MAP が大きいほど、関連する項目を一覧の上位に配置できます。
正規化された割引累積ゲイン (NDCG)	NDCG は、関連性に基づいて項目を並べ替える機械学習アルゴリズムの能力を評価します。これは、ランキングを、関連するすべての項目がリストの一番上にある理想的な順序と比較します。k は、ランク付けの品質を評価しながらリストの長さです。これらのベンチマークでは、k=10 は、 `ndcg_at_10`のメトリックによって示されます。つまり、上位 10 項目が評価されます。
精度	精度は、特定のクラスのインスタンスを正しく識別するモデルの能力を測定します。精度は、ターゲットクラスを予測するときに機械学習モデルが正しい頻度を示します。
スピアマンの相関関係	コサインの類似性に基づくスピアマン相関は、最初に変数間のコサインの類似性を計算し、次にこれらのスコアをランク付けし、ランクを使用してスピアマンの相関関係を計算することによって計算されます。
V 測度	V メジャーは、クラスタリングの品質を評価するために使用されるメトリックです。 Vメジャーは、均一性と完全性の調和平均として計算され、意味のあるスコアのために2つの間のバランスを確保します。可能なスコアは 0 と 1 の間にあり、1 つは完全に完全なラベル付けです。

スコアの計算

個々のスコア

ベンチマークの結果は、言語モデルの評価に一般的に使用されるパブリックデータセットに由来します。ほとんどの場合、データは、データの作成者または学芸員によって管理されるGitHubリポジトリでホストされます。 Foundry 評価パイプラインは、元のソースからデータをダウンロードし、各行からプロンプトを抽出し、モデルの応答を生成してから、関連する精度メトリックを計算します。

プロンプト構築は、データセットと業界標準を紹介する論文で規定されているように、各データセットのベストプラクティスに従います。ほとんどの場合、各プロンプトには複数の ショットが含まれています。つまり、タスクのモデルを準備するための完全な質問と回答の例がいくつかあります。ショットの数はデータセットによって異なり、各データセットの元のパブリケーションで指定された手法に従います。評価パイプラインは、評価から除外されたデータの一部から質問と回答をサンプリングしてショットを作成します。

ベンチマークの制限事項

すべてのベンチマークには、結果を解釈するときに考慮する必要がある固有の制限があります。

品質ベンチマーク: ベンチマークデータセットは、モデルが同様のデータに対してトレーニングまたはチューニングされるため、時間の経過と同時に飽和状態になる可能性があります。評価結果は、プロンプトの構築と使用される少数の例の数によっても異なる場合があります。
パフォーマンスベンチマーク: メトリックは、入力と出力のトークンの比率と単一リージョンのデプロイを固定した合成ワークロードを使用して収集されます。実際のパフォーマンスは、ワークロードパターン、コンカレンシー、リージョン、デプロイの構成によって異なる場合があります。
コストベンチマーク: コストの見積もりは、測定時の 3 対 1 の入力対出力トークンの比率と現在の価格に基づいています。実際のコストはワークロードによって異なります。価格の変更の対象となります。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-05-01