Microsoft Foundry モデルの展開の概要

Microsoft Foundry Models は、生成型 AI アプリケーション用の幅広い AI モデルを検出してデプロイするためのハブです。推論要求でモデルを使用できるようにするには、モデルをデプロイします。 Foundry には、モデルの種類とインフラストラクチャのニーズに応じて、2 つのデプロイオプションが用意されています。

ヒント

デプロイメントを作成する必要は必ずしもありません。インスタントモデル (プレビュー) では、サポートされているモデルを名前で呼び出し、すぐに推論の実行を開始します。デプロイは必要ありません。

デプロイオプション

Foundry には、次の 2 つのデプロイオプションがあります。

Foundry リソースでの標準デプロイ — Azureパートナーやコミュニティからモデルを選択を含む Foundry モデルの場合。このオプションは、推奨される最も有効なデプロイパスです。
マネージドコンピューティングデプロイ (プレビュー) - パートナーやコミュニティのモデル、カスタムモデルなど、すべてのオープンソースソフトウェア (OSS) モデルで使用できます。

Foundry ポータルでは、選択したモデルに基づいて適切なデプロイオプションが自動的に選択されます。

	Foundry リソースでの標準デプロイ	マネージドコンピューティング
モデル	ADM モデル (Azure OpenAI + Azure を通じて請求されるパートナーモデル) を選択し、パートナーとコミュニティから [モデル] を選択します	パートナー提供のモデルやカスタムモデルを含む、モデルカタログ内の他のモデル。たとえば、Hugging Face、NVIDIA NIC、業界標準、Databricks のモデルなどです。
請求	トークン使用量またはプロビジョニング済みスループットユニット (PTU)	アクセラレータ SKU ごとの時間単位
データ処理	リージョン、データゾーン、またはグローバル	リージョンのみ
コンテンツのフィルター処理	組み込みおよびカスタマイズ可能	Azure AI Content Safety API を使用する

Foundry リソースでの標準デプロイ

Foundry リソースでの標準デプロイは、Foundry の 推奨されるデプロイオプション です。最も広い範囲の機能と展開の種類がサポートされています。

標準デプロイを使用するモデルはどれですか?

Azure で販売される Foundry モデルおよびパートナーおよびコミュニティの一部のモデルを含む、すべての Foundry モデルは標準デプロイを使用します。 Azureによって販売される Foundry Models には、Azure サブスクリプションを通じて課金され、Azureのサービスレベルアグリーメントによってカバーされ、Microsoftによってサポートされる、すべてのAzure OpenAI モデルと上位プロバイダーから選択されたモデルが含まれます。標準デプロイを使用するパートナーとコミュニティからモデルを選択すると、Anthropic モデルや、Mistral、Cohere、Meta などのパートナーの特定のモデルが含まれます。

機能

標準デプロイでは、次の機能がサポートされます。

グローバル 標準、データゾーン標準、リージョン標準、プロビジョニング済み、バッチなど、複数のデプロイの種類。各型は、データの処理方法と支払い方法を制御します。詳細については、「 Microsoft Foundry モデルの展開の種類」を参照してください。
データ処理の柔軟性 - コンプライアンス要件に基づいて、リージョン、データゾーン (米国または EU)、またはグローバル処理を選択します。
コンテンツフィルタリング - カスタマイズ可能な構成を含む組み込みの Azure AI Content Safety フィルター。
キーレス認証 — Microsoft Entra ID (推奨) とキーベースの認証。
プライベートネットワーク — セキュリティで保護されたアクセスのための仮想ネットワーク統合。
プロビジョニング済みスループット - 予測可能で待機時間の短いパフォーマンスを実現するために、PTU を使用して容量を予約します。詳細については、「プロビジョニング済みスループット」を参照してください。

リソースの要件

標準デプロイは次の環境で利用できます。

Foundry リソース - 新しい Foundry プロジェクトのプライマリリソースの種類。 AI ハブは必要ありません。
Azure OpenAI リソース — Azure OpenAI リソースを使用する場合、モデルカタログにはデプロイ用の Azure OpenAI モデルのみが表示されます。 Foundry モデルの完全なセットにアクセスするために Foundry リソースにアップグレードします。

デプロイを開始するには、 Foundry ポータルでの Microsoft Foundry モデルのデプロイまたは Azure CLI と Bicep を使用したモデルのデプロイに関するページを参照してください。

マネージドコンピューティングのデプロイ (プレビュー)

Note

Foundry のマネージドコンピューティングは現在パブリックプレビュー段階であり、それを使用するには登録が必要です。このプレビューはサービスレベルアグリーメントなしで提供されており、運用環境ではお勧めしません。特定の機能がサポートされていないか、機能が制限されている可能性があります。詳細については、「 Microsoft Azure プレビューの追加使用条件」を参照してください。

Foundry (プレビュー) のマネージドコンピューティングは、専用 GPU 容量でオープンソースモデルとカスタムウェイトモデルをホストするマネージド GPU サービスとしてのプラットフォーム (PaaS) です。マネージドコンピューティングデプロイには、他のデプロイの種類と同じ Foundry プロジェクトエンドポイントを介してアクセスします。仮想マシン、クラスター、または所有するランタイムを提供しません。 Foundry はデプロイのサイズを変更し、アクセラレータをプロビジョニングし、ランタイムにパッチを適用し続けます。

重要

マネージドコンピューティングでは、オープンソース、パートナー、業界、およびカスタムモデルがサポートされます。マネージドコンピューティングデプロイは、同じ認証、ネットワーク、SDK サーフェスを使用して、 統合 Foundry プロジェクトエンドポイントで提供されます。

マネージドコンピューティングを使用するモデルはどれですか?

マネージドコンピューティングを必要とするモデルコレクションの例を次に示します。

顔の抱き合い
一部のメタモデル
一部のミストラルモデル
NVIDIA 推論マイクロサービス (NIM)
業界モデル (Saifr、Rockwell、バイエル、セランス、サイトマシン、ページ AI、SDAIA)
Databricks
カスタムモデル

Microsoft Foundry のカタログには、10,000 以上のオープンソースモデルとパートナーモデルが含まれており、毎月約 50 の新しいモデルが公開されています。

機能

マネージドコンピューティング (プレビュー) では、次の機能がサポートされます。

Unified Foundry エンドポイントと認証 — トークンごとの支払いおよびプロビジョニングされたスループットのデプロイと同じプロジェクトエンドポイント、API キー、Microsoft Entra ID、プライベートネットワークを使用します。推論ルートでは、 <endpoint>/managed-deployments/<deployment-name>/が使用されます。チャット完了と互換性のあるランタイムは、OpenAI SDK を使用した標準の /openai/v1/ ルートでも動作します。
モデルインスタンスのサイズ設定 - デプロイはモデル中心の用語でサイズ設定されます。 Foundry では、モデルのサイズ、アーキテクチャ、コンテキストの長さ、およびワークロードが待機時間またはスループット用に最適化されているかどうかに基づいてインスタンスあたりの GPU が選択されるため、仮想マシンの SKU を選択する必要はありません。
最適化された推論ランタイム — 継続的バッチ処理、投機的デコード、テンソル並列処理、LoRAホットスワップを備えた、Microsoft が選定した vLLM、SGLang、NVIDIA NIM の各コンテナー。
アクセラレータファミリ : A100 (80 GB)、H100 (80 GB)、H200 (141 GB)、MI300X。
自動スケーリングとゼロへのスケーリング - ライブトラフィックから自動スケールするか、手動でスケーリングします。トラフィックが到着しないときにデプロイがゼロにスケーリングされるようにアイドルタイムアウトを構成し、課金を直ちに停止します。
Microsoft マネージドランタイム — Microsoftは、ランタイム、基本コンテナーイメージ、およびセキュリティパッチを提供しています。更新プログラムは、ライブデプロイに自動的に適用されます。
可観測性メトリック — 各デプロイでは、状態コードと応答時間パーセンタイルごとに API 呼び出し数が出力されます。 Chat-completion モデルでは、入力および出力トークン数、time-to-first-token (TTFT) のパーセンタイル、総応答時間のパーセンタイルを、時間ごとにグループ化して出力します。

課金と割り当て

マネージドコンピューティングの課金はアクセラレータ SKU ごとに 1 時間単位であり、基になる課金単位は GPU あたりのスループットです。自動スケールとスケールトゥゼロにより、コストを実際のトラフィックに合わせることができ、インスタンスがスケールダウンすると課金は直ちに停止します。

クォータは、Foundry quota process を通じてリージョンごとのアクセラレータ SKU ごとに付与され、Azure VM クォータとは別です。 Azure仮想マシンは、リージョン SKU を備えたサービスとしてのインフラストラクチャ (IaaS) オファリングです。マネージドコンピューティングは、グローバルおよびデータゾーンの処理をリードする PaaS オファリングです。既存のAzure VM クォータは、マネージドコンピューティングデプロイには適用できません。

マネージドコンピューティングは現在、グローバルデプロイで使用できます。料金の見積もりについては、Azure料金計算ツールを参照してください。

概要

マネージドコンピューティングを使用してオープンソースモデルをデプロイする

デプロイオプションの比較

Foundry リソースでは、可能な限り標準デプロイメントを使用します。次の表は、2 つのデプロイオプションの機能を比較しています。

能力	Foundry リソースでの標準デプロイ	マネージドコンピューティング
どのモデルをデプロイできますか?	すべての Foundry Models（Azure で販売される Foundry Models およびパートナーやコミュニティの一部の Models を含む）	モデルカタログ、NVIDIA NIM、および業界モデルのオープンソースモデルとパートナーモデル
デプロイリソース	ファウンドリーリソース	鋳造プロジェクト
AI Hub が必要	いいえ	いいえ
データ処理オプション	リージョン、データゾーン、グローバル	グローバル
プライベートネットワーク	はい	はい
コンテンツのフィルター処理	組み込みおよびカスタマイズ可能	パブリックプレビューでは使用できません
キーレス認証	はい (Microsoft Entra IDとキーベース)	はい (Microsoft Entra IDとキーベース)
請求書発行	トークンの使用またはプロビジョニングされたスループットユニット	アクセラレータ SKU ごとの時間あたり料金

ヒント

価格の詳細については、Microsoft Foundry のコストを計画および管理するを参照してください。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-06-03

Microsoft Foundry モデルの展開の概要

デプロイ オプション

Foundry リソースでの標準デプロイ

標準デプロイを使用するモデルはどれですか?

機能

リソースの要件

マネージド コンピューティングのデプロイ (プレビュー)

マネージド コンピューティングを使用するモデルはどれですか?

機能

課金と割り当て

概要

デプロイ オプションの比較

関連コンテンツ

フィードバック

その他のリソース

デプロイオプション

マネージドコンピューティングのデプロイ (プレビュー)

マネージドコンピューティングを使用するモデルはどれですか?

デプロイオプションの比較