次の方法で共有


Microsoft Foundry モデル (クラシック) のデプロイの種類

現在表示中:Foundry (クラシック) ポータルのバージョン - 新しい Foundry ポータルのバージョンに切り替える

この記事のリンクは、現在表示している Foundry (クラシック) ドキュメントではなく、新しい Microsoft Foundry ドキュメントのコンテンツを開く場合があります。

Microsoft Foundry にモデルをデプロイするときは、次を決定するデプロイの種類を選択します。

  • データが処理される場所 (グローバル、データ ゾーン、または単一リージョン)
  • 支払い方法 (トークンごとの支払いまたは予約容量)
  • パフォーマンス特性 (待機時間の分散、スループットの制限)

このサービスには、 Standard (トークンごとの支払い) とプロビジョニング済み (予約容量) の 2 つの主なカテゴリが用意 されています 。 各カテゴリ内で、コンプライアンス要件に基づいてグローバル、データ ゾーン、またはリージョン処理を選択できます。

[グローバル標準] が選択された [デプロイの種類] 選択ボックスを示す [Foundry portal deployment]\(Foundry ポータルのデプロイ\) ダイアログのスクリーンショット。

Important

すべての展開の種類のデータ所在地: 保存データは、指定されたAzure地域に残ります。 ただし、推論データは次のように処理されます。

  • Global型: 任意のAzureリージョンで処理できます
  • DataZone 型: Microsoft指定されたデータ ゾーン (米国または EU) 内でのみ処理されます
  • 標準/リージョン の種類: デプロイ リージョンで処理されます

データ所在地の詳細を確認する

展開の種類の比較

展開の種類 SKU コード データ処理 Billing 最適な用途
グローバル標準 GlobalStandard 任意のAzureリージョン トークンあたりの支払い 一般的なワークロード、最大クォータ
グローバルに設定済み GlobalProvisionedManaged 任意のAzureリージョン 予約済み PTU 予測可能な高スループット
グローバル バッチ GlobalBatch 任意のAzureリージョン 50% 割引、24 時間 大規模な非同期ジョブ
データ ゾーン標準 DataZoneStandard データ ゾーン内 トークンあたりの支払い EU/米国データ ゾーンのコンプライアンス
プロビジョニングされたデータ ゾーン DataZoneProvisionedManaged データ ゾーン内 予約済み PTU データ ゾーン + 予測可能なスループット
データ ゾーン バッチ DataZoneBatch データ ゾーン内 50% 割引 データ ゾーンを使用した大規模な非同期ジョブ
標準 Standard 単一リージョン トークンあたりの支払い リージョンのコンプライアンス、低ボリューム
リージョン プロビジョニング済み ProvisionedManaged 単一リージョン 予約済み PTU リージョンのコンプライアンスとスループット
開発者 DeveloperTier 任意のAzureリージョン トークンあたりの支払い 微調整されたモデルの評価のみ

すべてのモデルですべてのデプロイの種類がサポートされているわけではありません。 Azure によって直接販売されるファウンドリモデルについて、デプロイの種類とリージョンごとのモデル可用性を確認してください。

SLA の保証はデプロイの種類によって異なります。 プロビジョニングされた種類では、スループットが保証され、待機時間の差異が小さくなります。 標準の種類では、ベスト エフォート サービスが提供されます。 開発者向けデプロイには SLA は含まれません。 詳細については、Azure OpenAI Service の Azure SLA を参照してください。

ヒント

詳細な価格については、Azure OpenAI Service 価格を参照してください。

適切なデプロイの種類を選択する

デプロイの種類を選択するには、次の条件を使用します。

データ所在地の要件別

  • 制限なし: グローバル標準またはグローバル プロビジョニングを使用する
  • EU データ ゾーン: EU リージョンで DataZone Standard または DataZone Provisioned を使用する
  • 米国データ ゾーン: 米国リージョンで DataZone Standard または DataZone Provisioned を使用する
  • 単一リージョンのみ: Standard または Region Provisioned を使用する

ワークロード パターン別

  • 可変トラフィック、バースト トラフィック: Standard またはグローバル標準 (トークンごとの支払い) を使用する
  • 一貫性のある高ボリューム: プロビジョニングされた種類 (予約容量) を使用する
  • 大規模なバッチ ジョブ (時間に依存しない) : グローバル バッチまたは DataZone バッチを使用する (50% コスト削減)
  • 微調整されたモデル評価: 開発者を使用する (SLA なし、低コスト)

遅延要件別

  • 低待機時間の分散が必要: プロビジョニング済みの種類を使用する
  • 許容される待機時間の分散: 標準の種類を使用する

データ処理の場所

標準デプロイには、グローバル、データ ゾーン、Azure geography の 3 つのオプションがあります。 プロビジョン済みデプロイには、グローバルとAzure地域の2つのオプションがあります。 グローバル標準は、ほとんどのワークロードの一般的な開始点です。

グローバル展開

グローバルデプロイでは、Azureのグローバル インフラストラクチャを使用して、使用可能なデータセンターにトラフィックを動的にルーティングします。 グローバル デプロイでは、初期スループットの上限が最も高く、モデルの可用性が最も広くなります。

大量のワークロードでは、待機時間の変動が増加する可能性があります。 大規模な待機時間の差異を小さくする必要がある場合は、プロビジョニングされたデプロイの種類を使用します。

グローバル デプロイでは、最初に新しいモデルと機能を受け取ります。

データゾーンの配置

グローバル展開の種類の場合、プロンプトと応答は、モデルがデプロイされている任意の地域で処理される場合があります。 DataZone デプロイの種類の場合、プロンプトと応答は、指定されたデータ ゾーン内でのみ処理されます。

  • 米国: 米国内の任意の場所で処理されたデータ
  • 欧州連合:EU 加盟国内で処理されるデータ

詳細については、 Azure によって直接販売されるFoundry Models の「デプロイの種類別のモデル リージョンの可用性」セクションを参照してください。

グローバル標準とデータ ゾーン標準のデプロイの種類では、プライマリ リージョンでサービスが中断された場合、最初にこのリージョンにルーティングされたすべてのトラフィックが影響を受けます。 詳細については、 ビジネス継続性とディザスター リカバリーガイドを参照してください。

グローバル標準

  • コード内の SKU 名: GlobalStandard

グローバル標準デプロイでは、Azureのグローバル インフラストラクチャを使用して、使用可能なデータセンターにトラフィックを動的にルーティングします。 このデプロイの種類では、最高の既定のクォータが提供され、複数のリソース間で負荷分散する必要がなくなります。

ボリュームの整合性が高いお客様は、待機時間の変動が大きくなる可能性があります。 しきい値はモデルごとに設定されます。 詳細については、クォータページを参照してください。 ワークロードの使用率が大きい場合に待機時間の差異を小さくする必要があるアプリケーションの場合は、プロビジョニングされたスループットを検討してください。

Global Standard では、優先処理 (プレビュー) がサポートされ、従量課金制で応答時間が短縮されます。 詳細については、「 Foundry モデルの優先度処理 (プレビュー)」を参照してください。

グローバルに設定済み

  • コード内の SKU 名: GlobalProvisionedManaged

グローバル プロビジョニングされたデプロイでは、Azureのグローバル インフラストラクチャを使用して、使用可能なデータセンターにトラフィックを動的にルーティングします。 このデプロイの種類では、グローバル ルーティングと保証された容量を組み合わせて、予測可能なスループットのための予約済みモデルの処理能力が提供されます。

プロビジョニング済みスループットでは、特定のレベルの処理能力を保証するプロビジョニング済みスループット ユニット (PTU) の固定数を購入します。 このデプロイの種類では、Global Standard よりも短く一貫性のある待機時間が提供されます。 詳細については、「 プロビジョニングされたスループットの概念」を参照してください。

グローバル バッチ

  • コード内の SKU 名: GlobalBatch

グローバル バッチ は、大規模で大量の処理タスクを処理します。 要求の非同期グループは、個別のクォータと 24 時間の目標ターンアラウンドで処理でき、 グローバル標準よりも 50% 低コストです。 バッチ処理では、一度に 1 つの要求を送信するのではなく、1 つのファイルに多数の要求を送信します。 グローバル Batch 要求には、オンライン ワークロードの中断を回避する個別のエンキュートークン クォータがあります。

一般的なユース ケース:

  • 大規模なデータ処理: データセットを並列で分析します。
  • コンテンツの生成: 製品の説明や記事など、大量のテキストを作成します。
  • ドキュメントのレビューと要約: 長いドキュメントを処理して要約します。
  • カスタマー サポートの自動化: 多数のクエリを同時に処理します。
  • データの抽出と分析: 大量の非構造化データから情報を抽出および分析します。
  • 自然言語処理 (NLP) タスク: 大規模なデータセットに対して感情分析または翻訳を実行します。

バッチ デプロイでは、リアルタイムの応答性が高く、コストを削減できます。 バッチ要求にはリアルタイム SLA はありません。24 時間以内に完了を目標としますが、時間がかかる場合があります。

データ ゾーン標準

  • コード内の SKU 名: DataZoneStandard

Data Zone Standard デプロイでは、Microsoft定義されたデータ ゾーン (米国または EU) 内のデータセンターにトラフィックが動的にルーティングされます。 このデプロイの種類では、指定したゾーン内にデータを保持しながら、地理ベースのデプロイの種類よりも高い既定のクォータが提供されます。

ボリュームの整合性が高いお客様は、待機時間の変動が大きくなる可能性があります。 しきい値はモデルごとに設定されます。 詳細については、 クォータと制限に関するページを参照してください。 大量のワークロードのレイテンシの変動が少ない場合は、プロビジョニングされたデプロイの種類を検討してください。

Data Zone Standard では、優先処理 (プレビュー) がサポートされ、従量課金制で応答時間が短縮されます。 詳細については、「 Foundry モデルの優先度処理 (プレビュー)」を参照してください。

プロビジョニングされたデータ ゾーン

  • コード内の SKU 名: DataZoneProvisionedManaged

Data Zone Provisioned デプロイでは、予約済みモデルの処理能力を提供しながら、Microsoft指定されたデータ ゾーン (米国または EU) 内でトラフィックが動的にルーティングされます。 このデプロイの種類は、データ ゾーンのコンプライアンスと高い予測可能なスループットを組み合わせたものになります。

データ ゾーン バッチ

  • コード内の SKU 名: DataZoneBatch

Data Zone Batch のデプロイでは、 グローバル バッチと同じ機能が提供されます。これには、50% コスト削減や 24 時間のターンアラウンドが含まれます。 トラフィックは、Microsoft定義されたデータ ゾーン (米国または EU) 内のデータセンターにのみルーティングされます。

Standard

  • コード内の SKU 名: Standard

標準デプロイでは、トークンごとの支払い請求が使用されます。 消費した分だけ支払います。 各リージョンで使用できるモデルとスループットが制限される場合があります。

標準デプロイは、バースト性の高い小規模から中規模のデータ量のワークロードに適しています。 ボリュームの整合性が高いお客様は、待機時間の変動が大きくなる可能性があります。

リージョン プロビジョニング済み

  • コード内の SKU 名: ProvisionedManaged

リージョンにプロビジョニングされたデプロイでは、デプロイに必要なスループットの量を指定できます。 その後、サービスは必要なモデル処理容量を割り当て、その準備が整っていることを確認します。 スループットは、プロビジョニングされたスループット ユニット (PTU) の観点から定義されます。これは、デプロイのスループットを表す正規化された方法です。 モデル とバージョンのペアごとに、デプロイする PTU の量が異なり、PTU ごとに異なる量のスループットが提供されます。 PTU の最小要件はモデルによって異なります。 現在の最小値と使用可能な容量については、「 プロビジョニング済みスループットの概念」を参照してください。

開発者 (微調整されたモデル用)

  • コード内の SKU 名: DeveloperTier

開発者デプロイの種類は、微調整されたモデルの評価のみを目的として設計されています。 カスタム モデルのコスト効率の高いテストが提供されますが、データ所在地の保証や SLA は含まれません。 開発者向けデプロイの有効期間は 24 時間固定であり、有効期限が切れると自動的に削除されます。 開発者展開の種類の使用の詳細については、 微調整ガイドを参照してください。

デプロイに関する問題のトラブルシューティング

デプロイを作成または使用するときの一般的な問題:

問題点 原因 解決策
展開タイプは利用できません モデルでは、選択した型がサポートされていません デプロイの種類別にモデルの可用性を確認する
クォータを超えました 1 分あたりのトークンのサブスクリプション制限に達しました Azureポータルでクォータの引き上げを要求するか、別のリージョンを使用する
リージョンを利用できない 選択したリージョンにデプロイされていないモデル モデルの可用性リストからリージョンを選択する
プロビジョニングされた容量は使用できません リージョンに PTU 容量がない 別のリージョンを試すか、グローバル プロビジョニングを使用してより広範な可用性を実現する

デプロイの種類別のクォータ制限については、「 Foundry Models のクォータと制限」を参照してください。

Azure Policyを使用して展開の種類を制限する

Azure Policyは、組織の標準を適用し、大規模なコンプライアンスを評価するのに役立ちます。 コンプライアンス ダッシュボードを使用すると、環境の全体的な状態を評価し、リソースごと、ポリシーごとの粒度にドリルダウンできます。 Azure Policyでは、既存のリソースの一括修復と、新しいリソースの自動修復もサポートされます。 Foundry Tools のAzure Policyおよび特定の組み込みコントロールの詳細

特定の Foundry 展開の種類へのアクセスを無効にするには、次のポリシーを使用します。 GlobalStandardを、制限するデプロイの種類の SKU 名に置き換えます。

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}