生成的AIモデル
Tip
詳細については、「 テキストと画像 」タブを参照してください。
生成 AI とエージェント ソリューションは、言語モデルに基づいています。 大規模言語モデル (LLM) は、さまざまな応答を提供できる生成 AI ソリューションの基盤を形成します。 現在、さまざまなニーズに対応する幅広いモデルが存在しています。 たとえば、軽量電話アプリケーションの AI 機能は、小さな言語モデルで最適に動作する場合があり、政府機関向けアプリケーションではドメインに特化したモデルが必要な場合があります。
Microsoft Foundry は、生成 AI モデルを検出、評価、デプロイ、運用するための統合環境を提供します。 豊富なモデル カタログ、柔軟なデプロイ オプション、組み込みのガバナンス機能が組み込まれているため、チームは企業の信頼を得て、副操縦、エージェント、AI を利用したアプリケーションを構築できます。
注
Microsoft Foundry を使用するには、Azure サブスクリプションが必要です。 Foundry の機能を利用するには、まず Foundry でプロジェクトを作成します。 詳細については、「 Microsoft Foundry の概要」を参照してください。
Foundry のモデル カタログでモデルを検出する
Foundry のモデル カタログ は、広範なプロバイダーから幅広い選択の生成 AI モデルを検出して使用するための中心的なハブです。 Foundry では、ソース、機能、推論タスクなどを使用してモデルをフィルター処理できます。 Foundry を使用すると、モデルの機能を理解して比較できるほか、スケーラブルで安全な責任ある AI ソリューションをテストおよび構築できます。
注
Foundry ポータルには、 クラシック ユーザー インターフェイス (UI) と 新 しい UI があります。 Foundry ポータルの画像には、関連する 新しい UI が反映されます。
モデル カタログには、パートナーやオープンソース コミュニティのモデルと共に、Azure によって直接販売されるモデルを含む、幅広いモデルが用意されています。
Azure によって直接販売されるモデル: これらのモデルは、Microsoft 製品条項に基づき Microsoft によってホストされます。 Azure との高度な統合、エンタープライズ レベルのサービス レベル アグリーメント (SLA)、構成済みのセキュリティ、コンプライアンスの調整が提供されます。
パートナーとコミュニティからのモデル: カタログを介して統合されたオープン ソースまたはベンダーホスト型モデルが含まれます。 これらのモデルは、より広範な実験と迅速なイノベーションをサポートし、多くの場合、特殊なタスクやドメイン固有のタスクに適しています。
通常、各モデル エントリには次のものが含まれます。
- モデルの説明と機能 (テキストの生成、推論、コーディング、マルチモーダル、埋め込みなど)
- ベンチマーク結果とパフォーマンスの比較
- サポートされている推論タスクと微調整オプション
- 責任ある AI ドキュメント (モデル カード、制約、注意事項)
一般的に使用されるモデル ファミリ
Foundry で利用できる千プラス モデルの中には、 モデル ファミリ別にグループ化されたモデルが多数存在します。 モデル ファミリとは、同じ基になるアーキテクチャまたは系列を共有するが、サイズ、機能、特殊化、またはバージョンが異なる関連モデルのグループを指します。
一般的に使用されるモデル ファミリは次のとおりです。
GPT-5.x: 複数ステップの推論、構造化されたロジック、計画、エージェントワークフロー用に最適化されています。 技術的なレポートの生成、コード分析、マルチツール エージェントの調整など、高い精度の推論と長いコンテキストの理解を必要とするシナリオでうまく機能します。 調整可能な「思考レベル」をサポートし、開発者は必要に応じ正確さのためにスピードを交換できます。
Claude Opus 4.5 (Anthropic): 高度なエージェント、複雑なコード推論、または複数ステップのコンピューター使用タスクに対してフロンティア レベルのモデルが必要な場合。 Opus 4.5 は、コーディング、エージェント、コンピューターの使用全体で強力なパフォーマンスを発揮する Anthropic の最もインテリジェントなモデルと説明されており、長い仕様、マルチファイルの相違、または拡張された研究ノートに役立つ大きなコンテキスト/出力ウィンドウです。
Mistral Large 3 (Mistral AI): 効率的なスループットで強力な品質を求める場合に最適な最先端の汎用モデルです。 このモデルは、コストとパフォーマンスのバランスを取る多言語の製図、構造化されたビジネス レポートの生成、または待機時間の途中のエージェント タスクでうまく機能します。 Mistral Large 3 は、"最先端の" 一般的なモデルであり、キュレーションされた Foundry カタログの一部であり、柔軟なコスト/待機時間のトレードオフを備えた高い機能が必要な場合に、フラッグシップ モデルに代わる実用的な代替手段となります。
注
現在、GPT-5 モデル ファミリの登録が必要であり、その可用性が制限されています。 すべての Foundry ユーザーは GPT-4.1 を使用できます。これは、迅速かつ大規模な応答が必要なリアルタイム チャット、カスタマー サポート、対話型アプリケーションに最適です。 これは、速度、効率、待機時間の短い推論用に最適化されているため、大量の運用ワークロードに対する推論負荷の高いモデルよりも優れています。
Foundry では、 基礎モデル は、GPT、Claude、Mistral などの大規模な事前トレーニング済みモデルであり、一般的な言語、推論、またはマルチモーダル機能をすぐに利用できます。 これらのモデルは、すぐにデプロイすることも、微調整を通じてカスタマイズすることもできます。また、AI アプリケーションを構築するための基本レイヤーとして機能します。
Foundry でモデルを評価する
Foundry で適切なモデルを選択するには 、ワークロード、タスクの種類、制約を理解することから始めます。
タスクの種類別にモデルを選択する
| タスク | 推奨されるモデルの種類 | モデルの詳細 |
|---|---|---|
| チャット | GPT-5.x チャット、Claude Sonnet/Opus、Mistral-Large-3、DeepSeek V3.1、Phi-4 や Llama などの小さな言語モデル (SLB) | 強い推論、会話のチューニング、安全性 |
| コーディング | GPT-5.1-codex、Claude-Sonnet | 複雑なエージェント フローのサポート |
| 概要 | GPT-5.x 推論モデル、Claude Opus/Sonnet | 長い文脈を活用した高品質の圧縮 |
| Embeddings | text-embedding-3-small またはその他の埋め込みモデル | セマンティック ベクター表現用に構築 |
| マルチ モーダル | Phi-4-multimodal-instruct、GPT-5.x チャット マルチモーダル、Mistral-Large-3 | チャット完了での画像、オーディオ、ビデオのサポート |
| 業界またはドメイン固有 | カタログ内のドメイン調整済みモデル | 金融、医療、法務などの業界に固有のアプリケーション |
注
ユース ケースが明確に定義されている場合は、モデル カタログからモデルを選択する代わりに、 Foundry ツールを選択できます。 Foundry ツールは、カスタム モデリングを使用せずに、予測可能なパフォーマンス、組み込みのコンプライアンス、迅速な価値への移行を実現する事前構築済みモデルを備えています。
Foundry でモデルのスコア付けと比較を行う
Foundry のモデル カタログには、標準データセットに対するモデルのパフォーマンスを示すベンチマーク結果が含まれています。 ベンチマーク スコアは、一貫した評価基準を使用してモデルの選択を簡略化します。
Foundry ポータルでは、次の情報も表示できます。
- モデル ランキング: ランキングは、品質、安全性、スループットなどの属性に基づいてモデルをランク付けします。 これは、タスクに最適なモデルを特定するのに役立ちます。 タスクの例としては、推論、要約、コード生成などがあります。
- 比較とフィルター: 品質と精度、コスト、セキュリティとコンプライアンス、パフォーマンス メトリックによる Side-by-side モデルの比較。 業界、ユース ケース、モデルの種類、ライセンスなどをフィルター処理できます。
評価できる一般的な方法は、Foundry のモデル カタログから開始し、モデルを選択してから、[ ベンチマーク] → [独自のデータを試す] を選択することです。 プロンプトを試して、応答が期待どおりになっているかどうかを確認できます。
Foundry ポータルでは、 自然言語処理 (NLP) メトリック や AI 支援品質メトリックなど、さまざまな方法でモデルをスコア付けできます。 従来の NLP 品質メトリック の例として、精度、精度、再現率、F1 があります。 AI 支援メトリックの例としては、接地性、関連性、一貫性と流暢さ、GPT の類似性などがあります。 従来のメトリックを超えて定性的スコアリングを行う場合は、AI 支援メトリックを選択します。
Foundry では、 エバリュエーター は AI モデルまたはエージェント出力の品質、安全性、有効性を測定するために使用されるコンポーネントです。 たとえば、安全エバリュエーターを使用すると、責任ある AI 出力を確保できます。 有害または安全でないコンテンツ、偏見と不公平性、暴力、自傷行為、または保護されたクラスの損害をスキャンします。 Foundry のエバリュエーター ライブラリには、品質スコアリング、安全スキャンなどの再利用可能なエバリュエーターが用意されています。
注
Foundry のエバリュエーターは、問題を検出、スキャン、スコア付けしますが、問題を積極的に解決しません。
Foundry でモデルをデプロイする
モデルを選択すると、Foundry には、パフォーマンス、コスト、ガバナンスを調整できる柔軟なデプロイ メカニズムが用意されています。 モデルをデプロイすると 、AI モデルが使用され、安定したスケーラブルで安全なエンドポイントを通じて運用環境で使用できるようになります。 構成済みのモデルをデプロイすると、通常は API を介してアプリケーションが呼び出すことができるサービスにモデルが変換されます。 構成済みのモデルをデプロイすると、一貫したパフォーマンスと信頼性が確保されます。 また、開発者は承認されていない、または安全でない使用を防ぐことができます。
Foundry でカスタマイズできるデプロイ パラメーターは次のとおりです。
- デプロイの種類: 標準、グローバル バッチ、リージョンプロビジョニングスループットなど、Foundry で推論を処理する場所と方法を決定します。 デプロイの種類は、スループットとデータ処理の要件に関連付けられています。
- モデルのバージョン
- 1 分あたりのトークン数 (TPM) レート制限
注
トークンは、生成 AI モデルが処理できるテキストまたはデータの最小単位です。 モデルは、単語、サブワード、文字、句読点などのトークンに入力を分割し、言語を効率的に理解して生成できるようにします。
モデルをデプロイするときに、 1 分あたりのトークン (TPM) 割り当てを割り当てることができます。 TPM は、モデルが入力を処理できる速度とスケール、および 1 分あたりの要求数 (RPM) などのレート制限境界を決定します。 より高い TPM 割り当てをモデルデプロイに割り当てると、1 分あたりのトークン トラフィックを処理するための容量が増えます。 TPM を低くすると、要求間でトークンを使用できる展開の速度が低下します。
制限はモデル ファミリによって異なります。次に例を示します。
- ハイエンド推論モデル (例: DeepSeek R1、Grok、大きなラマ バージョン) には、TPM の天井が高い場合があります。
- 特殊化されたモデルまたはイメージ モデルは、多くの場合、TPM ではなく容量単位で動作します。
コンピューティング コンテキストでの調整とは、一度に実行できるコンピューティング処理の量を意図的に遅くしたり制限したりすることを意味します。 これは、システムが処理制限に近づいている場合に使用される保護メカニズムです。 調整によってリソースの使用量が一時的に制限されるため、システムの安定性と応答性を維持できます。
デプロイ レベルのクォータは、調整が発生する前に処理できるトークンまたは要求の数を定義します。 プロンプトが大きくなり、最大出力トークン設定が大きいほど TPM が消費され、超過した場合はレート制限エラーが発生します (スロットルの説明の検索結果で説明します)。 スロットリングが発生した場合は、最大トークン数を減らすか、コード内での同時リクエスト数を減少させます。
Foundry にモデルをデプロイすると、次のようなことが発生します。
- コンピューティング リソースが割り当てられます。Foundry は、モデルの実行に必要なハードウェア (CPU、GPU、メモリ、ネットワーク、スケーリングの規則) を割り当てます。
- API エンドポイントが作成されます。OpenAI Responses API を使用してモデルを安全に呼び出すことができます。これは、管理 API チェックによって検証されます。
- 構成 (モデル バージョン、応答スタイル、安全設定など) がロックされている
- 監視とログ記録がアクティブになる: 使用状況メトリック、パフォーマンス、待機時間、エラー、コストが追跡されます
次に、Foundry ポータルプレイグラウンドでこれらのモデルを構成し、クライアント アプリケーションで使用する方法について説明します。