ベンチマークを使用してモデルを選択する

完了

モデルをデプロイする前に、さまざまなディメンションでモデルがどのように実行されるかを理解する必要があります。 モデル ベンチマークは、モデルを比較し、情報に基づいて選択を決定するのに役立つ、客観的で測定可能なデータを提供します。 Microsoft Foundry ポータルには、品質、安全性、コスト、パフォーマンスのメトリックに整理された包括的なベンチマーク ツールが用意されています。

Access モデル ベンチマーク

Microsoft Foundry ポータルでは、次の 2 つの方法でベンチマークを調べることができます。

モデル カタログで、[モデル] ランキングを表示して、使用可能なすべてのモデルの比較ランキングを確認します。 このビューは、特定のメトリックまたはシナリオで最もパフォーマンスの高いモデルを識別するのに役立ちます。 ランキングには、品質、安全性、推定コスト、スループットによってランク付けされた上位モデルが表示されます。

特定のモデルの詳細なベンチマークについては、そのモデル カードを開き、[ ベンチマーク ] タブを選択します。このビューでは、さまざまなメトリックとデータセットで個々のモデルがどのように実行されるかを示します。比較グラフでは、類似したモデルに対して相対的に配置されます。

品質ベンチマーク

品質ベンチマークは、モデルが正確で一貫性があり、コンテキストに応じて適切な応答を生成する方法を評価します。 これらのメトリックでは、一貫性を確保するために、パブリック データセットと標準化された評価方法が使用されます。

品質インデックスは、推論、知識、質問の回答、数学的能力、コーディング スキルを測定する複数のベンチマーク データセット間で精度スコアを平均することで、高レベルの概要を提供します。 品質の高いインデックス値は、汎用言語タスク全体のパフォーマンスが高いことを示します。

品質ベンチマークでは、次のようなデータセットが使用されます。

  • アリーナ-ハード - 敵対的な質問への回答
  • BIG-Bench Hard - 推論機能
  • GPQA - 大学院レベルの多分野の質問
  • HumanEval+MBPP+ - コード生成タスク
  • 数学 - 数学的推論
  • MMLU-Pro - 一般的な知識評価
  • IFEval - 次の命令

ベンチマーク スコアは、0 から 1 までの範囲の正規化されたインデックスであり、値が大きいほどパフォーマンスが向上することを示します。

Microsoft Foundry ポータルのモデル ランキングのスクリーンショット。

安全ベンチマーク

安全メトリックにより、モデルが有害なコンテンツ、偏ったコンテンツ、不適切なコンテンツを生成しないようにします。 これらのベンチマークは、特に規制対象の業界や顧客向けのシナリオで、エンド ユーザーに公開されるアプリケーションにとって重要です。

Microsoft Foundry は、複数の安全ディメンションにわたってモデルを評価します。

有害な動作の検出 では、HarmBench ベンチマークを使用して、モデルが安全でないコンテンツの生成にどの程度抵抗しているかを測定します。 この評価では 、攻撃成功率 (ASR) が計算されます。低い値は、より安全で堅牢なモデルを示します。 HarmBench は、次の 3 つの機能領域をテストします。

  • 標準的な有害な行動 - サイバー犯罪、違法行為、一般的な損害
  • 文脈上有害な行動 - 誤った情報、嫌がらせ、いじめ
  • 著作権違反 - 著作権で保護された資料の複製

有害なコンテンツ検出 では、ToxiGen データセットを使用して、モデルが敵対的および暗黙的なヘイトスピーチを識別する方法を測定します。 F1 スコアが高いほど、少数派グループへの参照間での検出パフォーマンスが向上することを示します。

機密ドメインの知識 では、WMDP (大量破壊プロキシの武器) ベンチマークを使用して、バイオセキュリティ、サイバーセキュリティ、化学セキュリティのモデル知識を測定します。 WMDP スコアが高いほど、潜在的に危険な機能に関するより多くの知識が示されます。

安全性スコアは、モデルの堅牢性を理解するのに役立ちます。これは、有害な出力が重大な懸念を引き起こす顧客向けアプリケーションにとって特に重要です。

コスト ベンチマーク

モデルの使用による財務上の影響を理解することは、品質要件と予算の制約のバランスを取るのに役立ちます。 Microsoft Foundry のコスト ベンチマークでは、サーバーレス API デプロイと Azure OpenAI モデルの価格が表示されます。

入力トークンあたりのコスト は、100 万個の入力トークン (モデルに送信するテキスト) を処理するための価格を示します。

出力トークンあたりのコストは、 100 万個の出力トークン (モデルによって生成されるテキスト) を生成するための価格を示します。

推定コスト は、一般的な 3 対 1 の比率 (各出力トークンに対して 3 つの入力トークン) を使用して入力コストと出力コストを組み合わせ、比較のために 1 つの数値を提供します。 値が小さいほど、コスト効率の高いモデルが示されます。

コスト ベンチマークは、アプリケーションの使用パターンと予算に合った価格ポイントで必要な品質を提供するモデルを特定するのに役立ちます。

パフォーマンス ベンチマーク

パフォーマンス メトリックは、モデルが要求に応答する速度と効率を測定します。 これらのベンチマークは、ユーザー エクスペリエンスが応答性に依存するリアルタイム アプリケーションにとって重要です。

待機時間 の測定値は次のとおりです。

  • 待機時間の平均 - 要求を処理する平均時間 (秒)
  • 待機時間 P50 (中央値) - 50% の要求が今回よりも速く完了する
  • 待機時間 P90 から 90% の要求は、今回よりも高速に完了します
  • 待機時間 P95 から 95% の要求は、今回よりも高速に完了します
  • 待機時間 P99 から 99% の要求は、今回よりも速く完了します
  • 最初のトークンへの時間 (TTFT) - ストリーミングを使用するときに最初のトークンが到着するまでの時間

スループット の測定値は次のとおりです。

  • 生成された 1 秒あたりのトークン数 (GTPS) - 1 秒あたりに生成された出力トークン
  • 1 秒あたりの合計トークン数 (TTPS) - 1 秒あたりに処理される入力トークンと出力トークンの組み合わせ
  • トークン間の時間 - 連続するトークンの受信間隔

ランキングは、平均時間から最初のトークン (低い方が良い) と 1 秒あたりの平均生成トークン (高い方が良い) を使用してパフォーマンスを要約します。 高スループットで待機時間の短いモデルは、対話型アプリケーションでより優れたユーザー エクスペリエンスを提供します。 速度がコストよりも低いバッチ処理ジョブの場合は、他の要因に優先順位を付けることができます。

ランキングと比較機能を使用する

モデル ランキングを使用すると、特定のメトリックの上位モデルを表示できます。 品質、安全性、推定コスト、スループットで並べ替えて、要件に最も適したモデルを特定できます。

シナリオ ランキングは、 推論、コーディング、数学、質問への回答、根拠など、特定のユース ケース向けに最適化されたモデルを見つけるのに役立ちます。 アプリケーションが特定のシナリオにマップされている場合は、全体的な品質インデックスのみに依存するのではなく、関連するシナリオ ランキングから始めます。

トレードオフのグラフ には、品質とコスト、品質、スループットなど、2 つのメトリックが同時に表示されます。 これらの視覚化は、要件の最適なバランスを見つけるのに役立ちます。 ドロップダウンを使用して、品質をコスト、スループット、または安全性と比較します。 グラフの右上隅に近いモデルは、両方のメトリックで適切に動作します。 モデルの精度は若干低くなりますが、大幅に高速または安価なモデルは、ニーズに適している可能性があります。

サイド バイ サイド比較 では、ランキングから 2 つまたは 3 つのモデルを選択し、複数のディメンション間でそれらを比較できます。

  • パフォーマンス ベンチマーク (品質、安全性、スループット)
  • モデルの詳細 (コンテキスト ウィンドウ、トレーニング データ、サポートされている言語)
  • サポートされているエンドポイント (デプロイ オプション)
  • 機能のサポート (関数呼び出し、構造化された出力、ビジョン)

名前の横にあるチェック ボックスをオンにしてモデルを選択し、[ 比較 ] を選択して詳細比較ビューを開きます。