ベンチマークを使用してモデルを選択する

9 分

モデルをデプロイする前に、さまざまなディメンションでモデルがどのように実行されるかを理解する必要があります。モデルベンチマークは、モデルを比較し、情報に基づいて選択を決定するのに役立つ、客観的で測定可能なデータを提供します。 Microsoft Foundry ポータルには、品質、安全性、コスト、パフォーマンスのメトリックに整理された包括的なベンチマークツールが用意されています。

Access モデルベンチマーク

Microsoft Foundry ポータルでは、次の 2 つの方法でベンチマークを調べることができます。

モデルカタログで、[モデル] ランキングを表示して、使用可能なすべてのモデルの比較ランキングを確認します。このビューは、特定のメトリックまたはシナリオで最もパフォーマンスの高いモデルを識別するのに役立ちます。ランキングには、品質、安全性、推定コスト、スループットによってランク付けされた上位モデルが表示されます。

特定のモデルの詳細なベンチマークについては、そのモデルカードを開き、[ ベンチマーク ] タブを選択します。このビューでは、さまざまなメトリックとデータセットで個々のモデルがどのように実行されるかを示します。比較グラフでは、類似したモデルに対して相対的に配置されます。

品質ベンチマーク

品質ベンチマークは、モデルが正確で一貫性があり、コンテキストに応じて適切な応答を生成する方法を評価します。これらのメトリックでは、一貫性を確保するために、パブリックデータセットと標準化された評価方法が使用されます。

品質インデックスは、推論、知識、質問の回答、数学的能力、コーディングスキルを測定する複数のベンチマークデータセット間で精度スコアを平均することで、高レベルの概要を提供します。品質の高いインデックス値は、汎用言語タスク全体のパフォーマンスが高いことを示します。

品質ベンチマークでは、次のようなデータセットが使用されます。

アリーナ-ハード - 敵対的な質問への回答
BIG-Bench Hard - 推論機能
GPQA - 大学院レベルの多分野の質問
HumanEval+ と MBPP+ - コード生成タスク
数学 - 数学的推論
MMLU-Pro - 一般的な知識評価
IFEval - 次の命令

ベンチマークスコアは、0 から 1 までの範囲の正規化されたインデックスであり、値が大きいほどパフォーマンスが向上することを示します。

安全ベンチマーク

安全メトリックにより、モデルが有害なコンテンツ、偏ったコンテンツ、不適切なコンテンツを生成しないようにします。これらのベンチマークは、特に規制対象の業界や顧客向けのシナリオで、エンドユーザーに公開されるアプリケーションにとって重要です。

Microsoft Foundry は、複数の安全ディメンションにわたってモデルを評価します。

有害な動作の検出 では、HarmBench ベンチマークを使用して、モデルが安全でないコンテンツの生成にどの程度抵抗しているかを測定します。この評価では 、攻撃成功率 (ASR) が計算されます。低い値は、より安全で堅牢なモデルを示します。 HarmBench は、次の 3 つの機能領域をテストします。

標準的な有害な行動 - サイバー犯罪、違法行為、一般的な損害
文脈上有害な行動 - 誤った情報、嫌がらせ、いじめ
著作権違反 - 著作権で保護された資料の複製

有害なコンテンツ検出 では、ToxiGen データセットを使用して、モデルが敵対的および暗黙的なヘイトスピーチを識別する方法を測定します。 F1 スコアが高いほど、少数派グループへの参照間での検出パフォーマンスが向上することを示します。

機密ドメインの知識 では、WMDP (大量破壊プロキシの武器) ベンチマークを使用して、バイオセキュリティ、サイバーセキュリティ、化学セキュリティのモデル知識を測定します。 WMDP スコアが高いほど、潜在的に危険な機能に関するより多くの知識が示されます。

安全性スコアは、モデルの堅牢性を理解するのに役立ちます。これは、有害な出力が重大な懸念を引き起こす顧客向けアプリケーションにとって特に重要です。

コストベンチマーク

モデルの使用による財務上の影響を理解することは、品質要件と予算の制約のバランスを取るのに役立ちます。 Microsoft Foundry のコストベンチマークでは、サーバーレス API デプロイと Azure OpenAI モデルの価格が表示されます。

入力トークンあたりのコスト は、100 万個の入力トークン (モデルに送信するテキスト) を処理するための価格を示します。

出力トークンあたりのコストは、 100 万個の出力トークン (モデルによって生成されるテキスト) を生成するための価格を示します。

推定コスト は、一般的な 3 対 1 の比率 (各出力トークンに対して 3 つの入力トークン) を使用して入力コストと出力コストを組み合わせ、比較のために 1 つの数値を提供します。値が小さいほど、コスト効率の高いモデルが示されます。

コストベンチマークは、アプリケーションの使用パターンと予算に合った価格ポイントで必要な品質を提供するモデルを特定するのに役立ちます。

パフォーマンスベンチマーク

パフォーマンスメトリックは、モデルが要求に応答する速度と効率を測定します。これらのベンチマークは、ユーザーエクスペリエンスが応答性に依存するリアルタイムアプリケーションにとって重要です。

待機時間 の測定値は次のとおりです。

待機時間の平均 - 要求を処理する平均時間 (秒)
待機時間 P50 (中央値) - 50% の要求が今回よりも速く完了する
待機時間 P90 から 90% の要求は、今回よりも高速に完了します
待機時間 P95 から 95% の要求は、今回よりも高速に完了します
待機時間 P99 から 99% の要求は、今回よりも速く完了します
最初のトークンへの時間 (TTFT) - ストリーミングを使用するときに最初のトークンが到着するまでの時間

スループット の測定値は次のとおりです。

生成された 1 秒あたりのトークン数 (GTPS) - 1 秒あたりに生成された出力トークン
1 秒あたりの合計トークン数 (TTPS) - 1 秒あたりに処理される入力トークンと出力トークンの組み合わせ
トークン間の時間 - 連続するトークンの受信間隔

ランキングは、平均時間から最初のトークン (低い方が良い) と 1 秒あたりの平均生成トークン (高い方が良い) を使用してパフォーマンスを要約します。高スループットで待機時間の短いモデルは、対話型アプリケーションでより優れたユーザーエクスペリエンスを提供します。速度がコストよりも低いバッチ処理ジョブの場合は、他の要因に優先順位を付けることができます。

フィードバック

このページはお役に立ちましたか?

ベンチマークを使用してモデルを選択する

Access モデル ベンチマーク

品質ベンチマーク

安全ベンチマーク

コスト ベンチマーク

パフォーマンス ベンチマーク

ランキングと比較機能を使用する

フィードバック

Access モデルベンチマーク

コストベンチマーク

パフォーマンスベンチマーク