Microsoft Foundry モデルの展開の概要

Microsoft Foundry Models は、生成型 AI アプリケーション用の幅広い AI モデルを検出してデプロイするためのハブです。 推論要求でモデルを使用できるようにするには、モデルをデプロイします。 Foundry には、モデルの種類とインフラストラクチャのニーズに応じて、2 つのデプロイ オプションが用意されています。

ヒント

デプロイメントを作成する必要は必ずしもありません。 インスタント モデル (プレビュー) では、サポートされているモデルを名前で呼び出し、すぐに推論の実行を開始します。デプロイは必要ありません。

デプロイ オプション

Foundry には、次の 2 つのデプロイ オプションがあります。

  • Foundry リソースでの標準デプロイ Azureパートナーやコミュニティからモデルを選択を含む Foundry モデルの場合。 このオプションは、推奨される最も有効なデプロイ パスです。
  • マネージド コンピューティングデプロイ (プレビュー) - パートナーやコミュニティのモデル、カスタム モデルなど、すべてのオープン ソース ソフトウェア (OSS) モデルで使用できます。

Foundry ポータルでは、選択したモデルに基づいて適切なデプロイ オプションが自動的に選択されます。

Foundry リソースでの標準デプロイ マネージド コンピューティング
モデル ADM モデル (Azure OpenAI + Azure を通じて請求されるパートナー モデル) を選択し、パートナーとコミュニティから [モデル] を選択します パートナー提供のモデルやカスタムモデルを含む、モデルカタログ内の他のモデル。 たとえば、Hugging Face、NVIDIA NIC、業界標準、Databricks のモデルなどです。
請求 トークン使用量または プロビジョニング済みスループット ユニット (PTU) アクセラレータ SKU ごとの時間単位
データ処理 リージョン、データ ゾーン、またはグローバル リージョンのみ
コンテンツのフィルター処理 組み込みおよびカスタマイズ可能 Azure AI Content Safety API を使用する

Foundry リソースでの標準デプロイ

Foundry リソースでの標準デプロイは、Foundry の 推奨されるデプロイ オプション です。 最も広い範囲の機能と展開の種類がサポートされています。

標準デプロイを使用するモデルはどれですか?

Azure で販売される Foundry モデル および パートナーおよびコミュニティの一部のモデル を含む、すべての Foundry モデルは標準デプロイを使用します。 Azureによって販売される Foundry Models には、Azure サブスクリプションを通じて課金され、Azureのサービス レベル アグリーメントによってカバーされ、Microsoftによってサポートされる、すべてのAzure OpenAI モデルと上位プロバイダーから選択されたモデルが含まれます。 標準デプロイを使用するパートナーとコミュニティからモデルを選択すると、Anthropic モデルや、Mistral、Cohere、Meta などのパートナーの特定のモデルが含まれます。

機能

標準デプロイでは、次の機能がサポートされます。

  • グローバル 標準、データ ゾーン標準、リージョン標準、プロビジョニング済み、バッチなど、複数のデプロイの種類。 各型は、データの処理方法と支払い方法を制御します。 詳細については、「 Microsoft Foundry モデルの展開の種類」を参照してください。
  • データ処理の柔軟性 - コンプライアンス要件に基づいて、リージョン、データ ゾーン (米国または EU)、またはグローバル処理を選択します。
  • コンテンツ フィルタリング - カスタマイズ可能な構成を含む組み込みの Azure AI Content Safety フィルター。
  • キーレス認証 — Microsoft Entra ID (推奨) とキーベースの認証。
  • プライベート ネットワーク — セキュリティで保護されたアクセスのための仮想ネットワーク統合。
  • プロビジョニング済みスループット - 予測可能で待機時間の短いパフォーマンスを実現するために、PTU を使用して容量を予約します。 詳細については、「 プロビジョニング済みスループット」を参照してください。

リソースの要件

標準デプロイは次の環境で利用できます。

  • Foundry リソース - 新しい Foundry プロジェクトのプライマリ リソースの種類。 AI ハブは必要ありません。
  • Azure OpenAI リソース — Azure OpenAI リソースを使用する場合、モデル カタログにはデプロイ用の Azure OpenAI モデルのみが表示されます。 Foundry モデルの完全なセットにアクセスするために Foundry リソースにアップグレードします。

デプロイを開始するには、 Foundry ポータルでの Microsoft Foundry モデルのデプロイ または Azure CLI と Bicep を使用したモデルのデプロイに関するページを参照してください。

マネージド コンピューティングのデプロイ (プレビュー)

Note

Foundry のマネージド コンピューティングは現在パブリック プレビュー段階であり、それを使用するには 登録が必要です 。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境ではお勧めしません。 特定の機能がサポートされていないか、機能が制限されている可能性があります。 詳細については、「 Microsoft Azure プレビューの追加使用条件」を参照してください。

Foundry (プレビュー) のマネージド コンピューティングは、専用 GPU 容量でオープンソースモデルとカスタムウェイト モデルをホストするマネージド GPU サービスとしてのプラットフォーム (PaaS) です。 マネージド コンピューティング デプロイには、他のデプロイの種類と同じ Foundry プロジェクト エンドポイントを介してアクセスします。仮想マシン、クラスター、または所有するランタイムを提供しません。 Foundry はデプロイのサイズを変更し、アクセラレータをプロビジョニングし、ランタイムにパッチを適用し続けます。

重要

マネージド コンピューティングでは、オープンソース、パートナー、業界、およびカスタム モデルがサポートされます。 マネージド コンピューティング デプロイは、同じ認証、ネットワーク、SDK サーフェスを使用して、 統合 Foundry プロジェクト エンドポイントで提供されます。

マネージド コンピューティングを使用するモデルはどれですか?

マネージド コンピューティングを必要とするモデル コレクションの例を次に示します。

  • 顔の抱き合い
  • 一部のメタ モデル
  • 一部のミストラル モデル
  • NVIDIA 推論マイクロサービス (NIM)
  • 業界モデル (Saifr、Rockwell、バイエル、セランス、サイト マシン、ページ AI、SDAIA)
  • Databricks
  • カスタム モデル

Microsoft Foundry のカタログには、10,000 以上のオープンソース モデルとパートナー モデルが含まれており、毎月約 50 の新しいモデルが公開されています。

機能

マネージド コンピューティング (プレビュー) では、次の機能がサポートされます。

  • Unified Foundry エンドポイントと認証 — トークンごとの支払いおよびプロビジョニングされたスループットのデプロイと同じプロジェクト エンドポイント、API キー、Microsoft Entra ID、プライベート ネットワークを使用します。 推論ルートでは、 <endpoint>/managed-deployments/<deployment-name>/が使用されます。 チャット完了と互換性のあるランタイムは、OpenAI SDK を使用した標準の /openai/v1/ ルートでも動作します。
  • モデル インスタンスのサイズ設定 - デプロイはモデル中心の用語でサイズ設定されます。 Foundry では、モデルのサイズ、アーキテクチャ、コンテキストの長さ、およびワークロードが待機時間またはスループット用に最適化されているかどうかに基づいてインスタンスあたりの GPU が選択されるため、仮想マシンの SKU を選択する必要はありません。
  • 最適化された推論ランタイム — 継続的バッチ処理、投機的デコード、テンソル並列処理、LoRAホットスワップを備えた、Microsoft が選定した vLLM、SGLang、NVIDIA NIM の各コンテナー。
  • アクセラレータ ファミリ : A100 (80 GB)、H100 (80 GB)、H200 (141 GB)、MI300X。
  • 自動スケーリングとゼロへのスケーリング - ライブ トラフィックから自動スケールするか、手動でスケーリングします。 トラフィックが到着しないときにデプロイがゼロにスケーリングされるようにアイドル タイムアウトを構成し、課金を直ちに停止します。
  • Microsoft マネージド ランタイム — Microsoftは、ランタイム、基本コンテナー イメージ、およびセキュリティ パッチを提供しています。 更新プログラムは、ライブ デプロイに自動的に適用されます。
  • 可観測性メトリック — 各デプロイでは、状態コードと応答時間パーセンタイルごとに API 呼び出し数が出力されます。 Chat-completion モデルでは、入力および出力トークン数、time-to-first-token (TTFT) のパーセンタイル、総応答時間のパーセンタイルを、時間ごとにグループ化して出力します。

課金と割り当て

マネージド コンピューティングの課金はアクセラレータ SKU ごとに 1 時間単位であり、基になる課金単位は GPU あたりのスループットです。 自動スケールとスケールトゥゼロにより、コストを実際のトラフィックに合わせることができ、インスタンスがスケールダウンすると課金は直ちに停止します。

クォータは、Foundry quota process を通じてリージョンごとのアクセラレータ SKU ごとに付与され、Azure VM クォータとは別です。 Azure仮想マシンは、リージョン SKU を備えたサービスとしてのインフラストラクチャ (IaaS) オファリングです。マネージド コンピューティングは、グローバルおよびデータ ゾーンの処理をリードする PaaS オファリングです。 既存のAzure VM クォータは、マネージド コンピューティングデプロイには適用できません。

マネージド コンピューティングは現在、グローバル デプロイで使用できます。 料金の見積もりについては、Azure料金計算ツールを参照してください。

概要

デプロイ オプションの比較

Foundry リソースでは、可能な限り標準デプロイメントを使用します。 次の表は、2 つのデプロイ オプションの機能を比較しています。

能力 Foundry リソースでの標準デプロイ マネージド コンピューティング
どのモデルをデプロイできますか? すべての Foundry Models(Azure で販売される Foundry Models および パートナーやコミュニティの一部の Models を含む) モデル カタログ、NVIDIA NIM、および業界モデルのオープンソースモデルとパートナー モデル
デプロイ リソース ファウンドリーリソース 鋳造プロジェクト
AI Hub が必要 いいえ いいえ
データ処理オプション リージョン、データ ゾーン、グローバル グローバル
プライベート ネットワーク はい はい
コンテンツのフィルター処理 組み込みおよびカスタマイズ可能 パブリック プレビューでは使用できません
キーレス認証 はい (Microsoft Entra IDとキーベース) はい (Microsoft Entra IDとキーベース)
請求書発行 トークンの使用または プロビジョニングされたスループット ユニット アクセラレータ SKU ごとの時間あたり料金

ヒント

価格の詳細については、Microsoft Foundry のコストを計画および管理する を参照してください。