モデル カタログを探索する

完了

Foundry Models カタログは、AI モデルを検出して比較するための中心的なハブとして機能します。 さまざまなプロバイダーから 1,900 を超えるモデルを利用できる場合、特定の要件に一致するモデルをフィルター処理して見つける効果的な方法が必要です。

モデル カタログには、次の 2 つの大きなカテゴリのモデルが含まれています。

  • Azure が直接販売するファウンドリーモデル

    これらのモデルは、Azure サブスクリプションを通じて直接課金され、Azure OpenAI モデルだけでなく、Microsoft や他のプロバイダーのモデルも含まれます。

  • フォンドリーのモデル:パートナーおよびコミュニティから

    これらのモデルは、信頼できるパートナーとコミュニティによって提供されます。それぞれ独自のライセンスと価格を使用します。

モデル カタログ内のモデルの検索

Foundry ポータルのモデル カタログ ユーザー インターフェイスを使用すると、ニーズに適したモデルを簡単に検索できます。 各モデルには、その重要な情報を示す モデル カード があります。プロバイダー、機能、ベンチマーク メトリック、責任ある AI の考慮事項、デプロイ オプションを含む。

Microsoft Foundry ポータルのモデル カタログのスクリーンショット。

キーワードでモデルを検索でき、次の属性に基づいてフィルター処理できます。

  • コレクション: モデルは、Azure で直接提供されるモデルや、Hugging Face リポジトリ内のモデルなどのコレクションに編成されます。
  • 機能: 推論 (複雑な問題解決)、 ツール呼び出し (API と関数の統合)、 マルチモーダル処理 (テキスト、画像、オーディオ) など、特定のモデル機能。
  • ソース: Azure OpenAI、Microsoft、Cohere、Mistral、Meta、Anthropic などのモデル プロバイダー。
  • 推論タスク: テキスト生成、要約、翻訳、画像生成、音声合成、その他の一般的な AI タスクなどの特定のタスク。
  • 微調整方法: モデルを微調整するためのサポートされている手法。
  • 業界: 業界固有のデータセットでトレーニングされたモデル。 これらの特殊なモデルは、多くの場合、それぞれのドメインで汎用モデルよりも優れたパフォーマンスを発揮します。

生成 AI モデルの種類を理解する

カタログを調べる際に、さまざまなユース ケース向けに設計されたさまざまなカテゴリのモデルが見られます。 大まかに言えば、言語モデルは次のように分類できます。

  • GPT-5、Mistral Large、Llama 3 70B などの大規模言語モデル (LLM) は、深い推論、複雑なコンテンツ生成、広範なコンテキスト理解を必要とするタスク用に設計されています。 これらのモデルは高度なアプリケーションに優れていますが、より多くの計算リソースが必要です。
  • Phi-4、Mistral OSS モデル、Llama 3 8B などの小さな言語モデル (SLB) は、一般的な自然言語処理タスクを処理しながら効率とコスト効率を提供します。 これは、最も複雑な推論タスクを処理するよりも速度とコストが重要なシナリオに最適です。 SLB は、下端のハードウェアまたはエッジ デバイスで実行できます。

チャットの完了と推論モデル

カタログ内のほとんどの言語モデルは、コンテキストに応じて一貫性のあるテキスト応答を生成するように設計された チャット補完 モデルです。 これらのモデルは、会話型インターフェイスとコンテンツ生成アプリケーションに電力を供給します。

数学、コーディング、科学、戦略、物流などの複雑なタスクで高いパフォーマンスを必要とするシナリオでは、Claude Opus 4.6 のような 推論モデル によって、問題解決機能が強化されます。 これらのモデルは、複雑な問題を分解し、その推論プロセスを示すことができます。

特殊化されたモデル

カタログには、タスク固有のモデルも含まれています。

Ada や Cohere などのモデルを埋め込むと、テキストが数値表現に変換されます。 これらのモデルを使用すると、セマンティック検索、レコメンデーション システム、および検索拡張生成 (RAG) シナリオが可能になります。このシナリオでは、正確なキーワード一致ではなく、意味に基づいて関連情報を検索する必要があります。

GPT-image-1 などの画像生成モデルは、テキストの説明から画像を作成します。 これらを使用して、マーケティング資料、イラスト、またはデザイン モックアップを生成します。

ソラ2のようなビデオ生成モデルは、テキストの説明からビデオコンテンツを作成します。

GPT-4.1 のような画像分析モデルは、テキストや画像を含むマルチモーダル入力を受け入れることができます。分析用の画像を含むプロンプトに基づいて自然言語出力を生成します。

GPT-4o-tts などのテキスト読み上げモデルでは、テキストベースの入力を合成音声に変換できます。

GPT-4o-transcribe などの音声テキスト変換モデルでは、音声を含むオーディオ データをテキスト文字起こしに変換できます。

リージョンおよびドメイン固有のモデル

一部のモデルは、特定の言語、地域、または業界向けに最適化されています。 特定のドメインまたは言語で特殊なパフォーマンスが必要な場合、多くの場合、これらのモデルは汎用の代替手段を上回ります。 例としては、医学文献、法的文書、または特定の言語コーパスに関してトレーニングされたモデルが含まれます。