現在表示中:Foundry (クラシック) ポータルのバージョン - 新しい Foundry ポータルのバージョンに切り替える
重要
この記事でマークされている項目 (プレビュー) は、現在パブリック プレビュー段階です。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境のワークロードにはお勧めしません。 特定の機能がサポートされていないか、機能が制限されている可能性があります。 詳細については、「Microsoft Azure プレビューの使用条件を参照してください。
Microsoft Foundry ポータルのモデル ランキング (プレビュー) は、業界標準のベンチマークを使用して Foundry model カタログのモデルを比較するのに役立ちます。 モデル カタログの [モデル ランキング] セクションから、 ランキングを参照 して、使用可能なモデルを次の方法で比較できます。
- 品質、安全性、コスト、パフォーマンスのランキング を使用して、1 つのメトリック (品質、安全性、コスト、またはスループット) で主要なモデルを識別します。
- 品質とコストなど、2 つのメトリック間のパフォーマンスを比較するトレードオフのグラフ
- 特定のユース ケースに合わせて配置されたモデルを検索するシナリオ別のランキング
適切なモデルが見つかると、その 詳細ベンチマーク結果を モデル カタログで開くことができます。 そこから、モデルをデプロイしたり、プレイグラウンドで試したり、独自のデータで評価することができます。 ランキングでは、テキスト言語モデル (大きな言語モデル (LLM) と小さな言語モデル (SLB) を含む) と埋め込みモデルのベンチマークがサポートされています。
モデル ベンチマークでは、品質、安全性、コスト、スループットにわたって LLM と SLB を評価します。 埋め込みモデルは、標準の品質ベンチマークを使用して評価されます。 ランキングは、新しいモデルとベンチマーク データセットが使用可能になると更新されます。
ベンチマークモデルの範囲
モデル ランキングには、Foundry モデル カタログから選択されたテキスト ベースの言語モデルが用意されています。 モデルは、次の条件に基づいて含まれます。
- Azureダイレクト モデルの優先順位付け: Azureダイレクト モデルは、一般的な生成 AI シナリオとの関連性のために選択されます。
- コア ベンチマークの適用性: モデルは、推論、知識、質問の回答、数学的推論、コーディングなどの汎用言語タスクをサポートする必要があります。 特殊なモデル (タンパク質フォールディングやドメイン固有の QA など) やその他のモダリティはサポートされていません。
このスコープにより、ランキングには、コア AI シナリオに関連する最新の高品質モデルが確実に反映されます。
ランキングの結果を解釈する
ランキングを使用すると、複数のディメンション間でモデルを比較できるため、ユース ケースに適したモデルを選択できます。 結果を解釈するためのガイドラインを次に示します。
- 品質インデックス: 品質インデックスが高いほど、推論、コーディング、数学、知識の各タスクで全体的なパフォーマンスが高いことを示します。 モデル間で品質インデックスを比較し、汎用言語タスクのトップ パフォーマーを特定します。
- 安全性スコア: 攻撃の成功率が低いほど、より堅牢なモデルが示されます。 特に有害な出力が重大な懸念事項である顧客向けアプリケーションでは、品質スコアと共に安全スコアを考慮してください。
- パフォーマンスのトレードオフ: 待機時間とスループットのメトリックを使用して、モデルの実際の応答性を理解します。 高品質で待ち時間の長いモデルは、リアルタイム アプリケーションには適していない可能性があります。
- コストに関する考慮事項: 推定コスト メトリックでは、3 対 1 の入力対出力トークン比率が使用されます。 実際のワークロードの入力と出力の比率に基づいて期待値を調整します。
- シナリオ ランキング: ユース ケースが特定のシナリオ (コーディングや数学など) にマップされている場合は、シナリオ ランキングから始めて、全体的な品質インデックスのみに依存するのではなく、そのタスク用に最適化されたモデルを見つけます。
ヒント
ランキング ベンチマークは、パブリック データセットを使用してモデル間で標準化された比較を提供します。 特定のデータとユース ケースでモデルのパフォーマンスを評価するには、「 生成型 AI アプリを評価する」を参照してください。
言語モデルの品質ベンチマーク
Foundry は、推論、知識、質問の回答、数学、コーディングの機能を測定する標準ベンチマーク データセットの精度スコアを使用して、LLM と SLB の品質を評価します。
| インデックス | 説明 |
|---|---|
| 品質インデックス | ベンチマーク データセット間で適用可能な精度スコア (exact_match、 pass@1、 arena_hard) を平均して計算されます。 |
品質インデックス値の範囲は 0 から 1 で、値が大きいほどパフォーマンスが向上します。 品質インデックスに含まれるデータセットは次のとおりです。
| データセット名 | カテゴリ |
|---|---|
| bigbench_hard (1,000 個の例にダウンサンプリング) | 推論 |
| chembench | 化学 |
| frontierscience | 科学的推論 |
| gpqa | QA |
| mbppplus | コーディング |
| mmlu_pro (サンプル数を1,000に減らして) | 一般的な知識 |
| musr | 推論 |
| tau2_telecom | エージェントとツールの呼び出しの選択 |
精度スコアの詳細を参照してください。
| メトリック | 説明 |
|---|---|
| 精度 | 精度スコアは、データセットとモデル レベルで使用できます。 データセット レベルでは、スコアはデータセット内のすべての例で計算された精度メトリックの平均値です。 使用される精度メトリックは、すべてのケースでexact_matchです。ただし、HumanEvalとMBPPのデータセットはpass@1を使用しています。 完全一致では、モデルで生成されたテキストがデータセットに従って正しい回答と比較され、生成されたテキストが回答と正確に一致する場合は 1 つ、それ以外の場合は 0 を報告します。
pass@1 メトリックは、コード生成タスクで一連の単体テストに合格するモデル ソリューションの割合を測定します。 モデル レベルでは、精度スコアは各モデルのデータセット レベルの精度の平均です。 |
精度スコアの範囲は 0 から 1 で、値の方が高い方が適しています。
言語モデルの安全性ベンチマーク
安全性ベンチマークは、関連性と厳格性の両方を確保するように設計された構造化されたフィルター処理と検証プロセスを通じて選択されます。 ベンチマークは、優先度の高いリスクに対処する場合、オンボードの対象となります。 安全ランキングには、安全性に関連する関心のあるトピックに関する意味のあるシグナルを提供するのに十分な信頼性の高いベンチマークが含まれます。 ランキングではHarmBenchを使用してモデルの安全性を評価し、シナリオのランキングは次のように整理されます。
| データセット名 | ランキング シナリオ | メトリック | 解釈 |
|---|---|---|---|
| HarmBench (標準) | 標準的な有害な動作 | 攻撃の成功率 | 値を小さくすると、標準的な有害なコンテンツを引き出すために設計された攻撃に対する堅牢性が向上します |
| HarmBench (コンテキスト) | コンテキストに依存する有害な動作 | 攻撃の成功率 | 値を小さくすると、コンテキストに有害なコンテンツを引き出すために設計された攻撃に対する堅牢性が向上します |
| HarmBench (著作権違反) | 著作権違反 | 攻撃の成功率 | 値を小さくすると、著作権侵害に対する堅牢性が高いことを示します |
| WMDP | 機密性の高いドメインの知識 | 精度 | 値が大きいほど、機密性の高いドメインの知識が高いことを示します |
| Toxigen | 有毒なコンテンツの検出 | F1 スコア | 値が大きいほど、検出パフォーマンスが向上します |
有害な動作の検出
HarmBench ベンチマークは、安全でない応答を引き出すために設計されたプロンプトを使用して有害な動作を測定します。 これには、次の 7 つのセマンティック カテゴリが含まれます。
- サイバー犯罪と不正侵入
- 化学および生物兵器または薬物
- 著作権違反
- 誤った情報と情報漏えい
- 嫌がらせといじめ
- 違法なアクティビティ
- 一般的な損害
これらのカテゴリは、次の 3 つの機能領域にグループ化されます。
- 標準的な有害な動作
- コンテキストに依存する有害な動作
- 著作権違反
各機能カテゴリは、個別のシナリオ ランキングで紹介されています。 評価では、HarmBench (攻撃なし) と HarmBench エバリュエーターからの直接プロンプトを使用して、攻撃成功率 (ASR) を計算します。 ASR 値が小さいほど、モデルの安全性が高くなります。 評価に攻撃戦略は使用されません。Foundry Guardrails (以前のコンテンツ フィルター) がオフになっている状態でモデル ベンチマークが実行されます。
有毒なコンテンツの検出
Toxigen は、敵対的で暗黙的なヘイトスピーチを検出するための大規模なデータセットです。 これには、13 の少数派グループを参照する暗黙的に有毒で無害な文が含まれます。 Foundry では、注釈付きの Toxigen サンプルを使用し、F1 スコアを計算して分類のパフォーマンスを測定します。 スコアが高いほど、有毒なコンテンツの検出が優れていることを示します。 ベンチマークは、Foundry Guardrails (以前のコンテンツ フィルター) がオフになっている状態で実行されます。
機密性の高いドメインの知識
大量破壊兵器プロキシ (WMDP) ベンチマークは、バイオセキュリティ、サイバーセキュリティ、化学セキュリティなどの機密性の高い領域のモデル知識を測定します。 ランキングでは、サイバーセキュリティ、バイオセキュリティ、化学セキュリティ全体の平均精度スコアが使用されます。 WMDP 精度スコアが高いほど、危険な機能に関するより多くの知識が示されます (安全性の観点から悪い動作)。 モデル ベンチマークは、既定の Foundry Guardrails (以前のコンテンツ フィルター) を使用して実行されます。 これらのガードレールは、暴力、自傷行為、性的、嫌悪、不公平に関するコンテンツの損害を検出してブロックしますが、サイバーセキュリティ、バイオセキュリティ、化学セキュリティのカテゴリは対象としません。
安全ベンチマークの制限事項
安全性は、複数のディメンションを持つ複雑なトピックです。 すべてのシナリオでシステムの完全な安全性をテストまたは表すことができるオープン ソース ベンチマークは 1 つもありません。 さらに、多くのベンチマークは、ベンチマーク設計とリスク定義の間の飽和またはミスアラインメントに苦しんでいます。 また、一部のベンチマークでは、ターゲット のリスクがどのように概念化され運用化されているかに関する明確なドキュメントがないため、結果が実際のリスクの微妙な部分を正確に把握しているかどうかを評価することが困難になります。 これらの制限により、実際の安全シナリオでモデルのパフォーマンスを過大評価または過小評価する可能性があります。
言語モデルのパフォーマンス ベンチマーク
パフォーマンス メトリックは、1 日あたり 24 回の試用版を使用して 14 日間にわたって集計され、試用版ごとに 2 つの要求が 1 時間間隔で送信されます。 特に明記されていない限り、次の既定のパラメーターは、サーバーレス API デプロイと Azure OpenAI の両方に適用されます。
| パラメーター | 値 | 適用対象 |
|---|---|---|
| 地域 | 米国東部/米国東部 2 | サーバーレス API デプロイおよび Azure OpenAI |
| 1 分あたりのトークン数 (TPM) レート制限 | 非推論の場合は 30k (Azure OpenAI に基づく 180 RPM)、推論モデルでは 100k N/A (サーバーレス API デプロイ) |
Azure OpenAI モデルの場合、デプロイの種類 (サーバーレス API、グローバル、グローバル標準など) に基づいてレート制限の範囲を持つユーザーが選択できます。 サーバーレス API デプロイの場合、この設定は抽象化されます。 |
| 要求の数 | 1 時間ごとに試用版で 2 つの要求 (1 日あたり 24 試用版) | サーバーレス API のデプロイ、Azure OpenAI |
| 試行回数/実行回数 | 336 回の実行に対して 1 日あたり 24 回の試用版を含む 14 日間 | サーバーレス API のデプロイ、Azure OpenAI |
| プロンプト/コンテキストの長さ | 中程度の長さ | サーバーレス API のデプロイ、Azure OpenAI |
| 処理されたトークンの数 (中程度) | 入力トークンと出力トークンの 80:20 の比率、つまり 800 個の入力トークンから 200 個の出力トークン。 | サーバーレス API のデプロイ、Azure OpenAI |
| 同時要求の数 | 1 つ (要求は順番に送信されます) | サーバーレス API のデプロイ、Azure OpenAI |
| データ | 合成 (静的テキストから準備された入力プロンプト) | サーバーレス API のデプロイ、Azure OpenAI |
| デプロイの種類 | サーバーレス API | Azure OpenAI にのみ適用されます |
| ストリーミング | True | サーバーレス API のデプロイと OpenAI Azure適用されます。 マネージド コンピューティングを使用してデプロイされたモデル、またはストリーミングがサポートされていないエンドポイントの場合、TTFT は P50 の待機時間メトリックとして表されます。 |
| SKU | Standard_NC24ads_A100_v4 (24 コア、220 GB RAM、64 GB ストレージ) | マネージド コンピューティングにのみ適用されます (コストとパフォーマンスのメトリックを見積もるために) |
LLM と SLB のパフォーマンスは、次のメトリックで評価されます。
| メトリック | 説明 |
|---|---|
| 待機時間の平均 | 要求を処理するための平均時間 (秒単位)。複数の要求で計算されます。 2 週間ごとに 1 時間ごとに要求がエンドポイントに送信され、平均が計算されます。 |
| レイテンシー P50 | 中央値 (50 パーセンタイル) の待機時間。 この時間内に 50% の要求が完了します。 |
| 待機時間 P90 | 90 パーセンタイルレイテンシー この時間内に 90% の要求が完了します。 |
| レイテンシ P95 | 95パーセンタイルレイテンシ。 この時間内に 95% の要求が完了します。 |
| 遅延 P99 | 99 パーセンタイル遅延。 この時間内に 99% の要求が完了します。 |
| スループット GTPS | 生成される 1 秒あたりのトークン数 (GTPS) は、要求がエンドポイントに送信された時点から 1 秒あたりに生成される出力トークンの数です。 |
| スループット TTPS | 1 秒あたりの合計トークン数 (TTPS) は、入力プロンプトと生成された出力トークンの両方を含む、1 秒あたりに処理された合計トークンの数です。 ストリーミングをサポートしていないモデルの場合、Time to First Token (ttft) は待機時間の P50 値 (応答の受信にかかった時間) を表します。 |
| 待機時間 TTFT | 最初のトークンへの合計時間 (TTFT) は、ストリーミングが有効になっているときにエンドポイントから返される応答の最初のトークンにかかった時間です。 |
| トークン間の時間 | このメトリックは、受信したトークン間の時間です。 |
Foundry は、次を使用してパフォーマンスを要約します。
| メトリック | 説明 |
|---|---|
| 遅延 | 最初のトークンまでの平均時間。 低い方が良いです。 |
| スループット | 1 秒あたりの平均生成トークン数。 高い方が良いです。 |
待機時間やスループットなどのパフォーマンス メトリックでは、最初のトークンまでの時間と 1 秒あたりの生成されたトークンによって、モデルの一般的なパフォーマンスと動作をより全体的に把握できます。 パフォーマンス番号は、最新のデプロイ構成を反映するように定期的に更新されます。
言語モデルのコスト ベンチマーク
コスト ベンチマークは、トークンの価格に基づく推定コストではなく、 品質ベンチマーク データセットで各モデルを実行するための実際のコストを測定します。
ベンチマーク コストは、次を使用して計算されます。
- ベンチマークの実行中に使用された入力、推論、および出力トークンの実際の数。
- 評価に使用されるモデル固有の推論作業構成 (通常は
highまたはxhigh)。 - トークンの使用とランタイムに影響を与えるデータセットの特性と複雑さ。
固定トークン比率に基づく見積もりとは異なり、このアプローチはベンチマーク ワークロードを実行する場合の真のエンドツーエンドのコストを反映しています。
コストの結果を解釈する方法
- 標準品質データセット全体で 、ベンチマーク実行ごとにコストが米国ドル で報告されます。
- 値は実際の実行コストを表し、モデル間の直接比較を可能にします。
- 値を小さくすると、ベンチマーク スイートのパフォーマンスがコスト効率が高くなります。
シナリオ ランキング ベンチマーク
シナリオ ランキングは、一般的な実際の評価目標によってベンチマーク データセットをグループ化します。 ユース ケースによって、モデルの長所と短所をすばやく特定できます。 各シナリオでは、1 つ以上のパブリック ベンチマーク データセットが集計されます。
次の表を使用して、[ シナリオ ] 列でユース ケースを見つけ、関連するベンチマーク データセットと結果が示す内容を確認します。 次の表は、使用可能なシナリオ のランキングとそれに関連するデータセットと説明をまとめたものです。
| シナリオ | データセット | 説明 |
|---|---|---|
| 標準的な有害な動作 | HarmBench (標準) | 標準的な有害なプロンプトに対する攻撃の成功率。 低い方が良いです。 有害な動作の検出を参照してください。 |
| コンテキストに依存する有害な動作 | HarmBench (コンテキスト) | コンテキストに応じた有害なプロンプトに対する攻撃の成功率。 低い方が良いです。 有害な動作の検出を参照してください。 |
| 著作権違反 | HarmBench (著作権) | 著作権違反のプロンプトの攻撃成功率。 低い方が良いです。 有害な動作の検出を参照してください。 |
| 機密性の高いドメインの知識 | WMDP (バイオセキュリティ、化学セキュリティ、サイバーセキュリティ) | 3 つの機密性の高いドメイン サブセットの精度。 精度が高いほど、機密性の高い機能に関する知識が増えます。 機密性の高いドメインの知識を参照してください。 |
| 毒性検出 | ToxiGen (注釈付き) | 毒性コンテンツ検出機能の F1 スコア。 高い方が良いです。 「有害なコンテンツの検出」を参照してください。 |
| 推論 | BIG-Bench ハード (1000 サブサンプル) | 推論機能の評価。 値を大きくした方が良いです。 |
| コーディング | BigCodeBench (指示)、 LiveBench (コーディング)、 LiveCodeBench mediumMBPPPlus | コード関連のタスクの精度を測定します。 値を大きくした方が良いです。 |
| 一般的な知識 | MMLU-Pro (1K 英語サブサンプル) | MMLU-Pro の英語のみのサブサンプルの 1,000 例。 |
| 質問と回答 | アリーナ ハードGPQA (ダイヤモンド) | 人間の好みを考慮した敵対的QA (Arena-Hard) と大学院レベルの学際的QA (GPQA ダイヤモンド)。 値を大きくした方が良いです。 |
| 数学 | MATH (500 サブサンプル) | 言語モデルの数学的推論機能を測定します。 値を大きくした方が良いです。 |
| 安定性 | TruthfulQA (MC1) | 言語モデルの複数選択の根拠/真実性評価。 値を大きくした方が良いです。 |
埋め込みモデルの品質ベンチマーク
埋め込みモデルの品質インデックスは、情報取得、ドキュメント クラスタリング、および要約タスクを対象とする、サーバーレス API ベンチマーク データセットの包括的なセットの平均精度スコアとして定義されます。
| メトリック | 説明 |
|---|---|
| 精度 | 精度は、処理された予測の合計数に対する正しい予測の割合です。 |
| F1 スコア | F1 スコアは精度と再現率の加重平均です。最適な値は 1 (完全な精度と再現率) で、最悪の値はゼロです。 |
| 平均精度 (MAP) | MAP は、ランク付けシステムとレコメンダー システムの品質を評価します。 これは、提案された項目の関連性と、システムがより関連性の高い項目を上部に配置する際の優れた点の両方を測定します。 値の範囲は 0 から 1 までです。MAP が大きいほど、関連する項目を一覧の上位に配置できます。 |
| 正規化された割引累積ゲイン (NDCG) | NDCG は、関連性に基づいて項目を並べ替える機械学習アルゴリズムの能力を評価します。 これは、ランキングを、関連するすべての項目がリストの一番上にある理想的な順序と比較します。k は、ランク付けの品質を評価しながらリストの長さです。 これらのベンチマークでは、k=10 は、 ndcg_at_10のメトリックによって示されます。つまり、上位 10 項目が評価されます。 |
| 精度 | 精度は、特定のクラスのインスタンスを正しく識別するモデルの能力を測定します。 精度は、ターゲット クラスを予測するときに機械学習モデルが正しい頻度を示します。 |
| スピアマンの相関関係 | コサインの類似性に基づくスピアマン相関は、最初に変数間のコサインの類似性を計算し、次にこれらのスコアをランク付けし、ランクを使用してスピアマンの相関関係を計算することによって計算されます。 |
| V 測度 | V メジャーは、クラスタリングの品質を評価するために使用されるメトリックです。 Vメジャーは、均一性と完全性の調和平均として計算され、意味のあるスコアのために2つの間のバランスを確保します。 可能なスコアは 0 と 1 の間にあり、1 つは完全に完全なラベル付けです。 |
スコアの計算
個々のスコア
ベンチマークの結果は、言語モデルの評価に一般的に使用されるパブリック データセットに由来します。 ほとんどの場合、データは、データの作成者または学芸員によって管理されるGitHubリポジトリでホストされます。 Foundry 評価パイプラインは、元のソースからデータをダウンロードし、各行からプロンプトを抽出し、モデルの応答を生成してから、関連する精度メトリックを計算します。
プロンプト構築は、データセットと業界標準を紹介する論文で規定されているように、各データセットのベスト プラクティスに従います。 ほとんどの場合、各プロンプトには複数の ショットが含まれています。つまり、タスクのモデルを準備するための完全な質問と回答の例がいくつかあります。 ショットの数はデータセットによって異なり、各データセットの元のパブリケーションで指定された手法に従います。 評価パイプラインは、評価から除外されたデータの一部から質問と回答をサンプリングしてショットを作成します。
ベンチマークの制限事項
すべてのベンチマークには、結果を解釈するときに考慮する必要がある固有の制限があります。
- 品質ベンチマーク: ベンチマーク データセットは、モデルが同様のデータに対してトレーニングまたはチューニングされるため、時間の経過と同時に飽和状態になる可能性があります。 評価結果は、プロンプトの構築と使用される少数の例の数によっても異なる場合があります。
- パフォーマンス ベンチマーク: メトリックは、入力と出力のトークンの比率と単一リージョンのデプロイを固定した合成ワークロードを使用して収集されます。 実際のパフォーマンスは、ワークロード パターン、コンカレンシー、リージョン、デプロイの構成によって異なる場合があります。
- コスト ベンチマーク: コストの見積もりは、測定時の 3 対 1 の入力対出力トークンの比率と現在の価格に基づいています。 実際のコストはワークロードによって異なります。価格の変更の対象となります。