この記事では、Foundry ポータルを使用して、推論のために Foundry リソースに Foundry モデルをデプロイする方法について説明します。 Foundry モデルには、Azure OpenAI モデル、メタ ラマ モデルなどのモデルが含まれます。 Foundry モデルをデプロイした後は、Foundry Playground でそれを操作し、コードから使用できます。
この記事では、パートナーとコミュニティ Llama-3.2-90B-Vision-Instruct の Foundry モデルを使用して説明します。 パートナーやコミュニティのモデルでは、デプロイ前にAzure Marketplaceをサブスクライブする必要があります。 一方、Foundry Models の Azure OpenAI など、Azureによって直接販売される Foundry モデルには、この要件はありません。 Foundry モデルの詳細については、「Azure によって直接販売されている Foundry Models」および「パートナーとコミュニティからの Foundry Models」を参照し、展開のために利用可能な地域の情報をご覧ください。
前提 条件
この記事を完了するには、次のものが必要です。
有効な支払い方法を持つAzure サブスクリプション。 Azureサブスクリプションをお持ちでない場合は、有料 Azure アカウントを作成して開始します。 GitHub モデルを使用している場合は、
Foundry Models プロセスでAzure サブスクリプションを作成できます。デプロイを作成および管理するための、Foundry リソースに対する Cognitive Services 共同作成者 ロールまたは同等のアクセス許可。 詳細については、「Azure RBAC ロールを参照してください。
Microsoft Foundry プロジェクト。 この種のプロジェクトは Foundry リソースで管理されます。
パートナーやコミュニティからのファウンドリモデルでサブスクリプションを作成するには、Azure Marketplaceへのアクセスが必要です。 モデルオファリングをサブスクライブするために必要なアクセス許可があることを確認してください。 Azure によって直接販売されるファウンドリーモデルはこの要件を必要としません。
モデルをデプロイする
Foundry ポータルで次の手順に従ってモデルをデプロイします。
-
Microsoft Foundry にサインイン>。 新しいファウンドリーのトグルがオンになっていることを確認します。 これらの手順は Foundry (新規) を参照します。
Foundry ポータルのホーム ページで、右上のナビゲーションで [検出 ] を選択し、左側のウィンドウで [モデル ] を選択します。
モデルを選択し、モデル カードでその詳細を確認します。 この記事では、
Llama-3.2-90B-Vision-Instructを使用して説明します。展開>Custom 設定を選択してデプロイをカスタマイズします。 または、>既定の設定を選択して、既定の展開設定を使用することもできます。
パートナーとコミュニティからのファウンドリモデルでは、Azure Marketplaceにサブスクライブする必要があります。 この要件は、たとえば
Llama-3.2-90B-Vision-Instructに適用されます。 利用規約を読み、[同意して 続行] を選択して条項に同意します。メモ
gpt-4o-miniによって直接販売されるFoundryモデルの場合、Azure Marketplaceをサブスクライブする必要がありません。展開設定を構成します。
- 既定では、デプロイではモデル名が使用されます。 デプロイする前に、この名前を変更できます。
- 推論中、この特定のデプロイに要求をルーティングするために、
modelパラメーターでデプロイ名が使用されます。
[ デプロイ] を選択してデプロイを作成します。
ヒント
各モデルは、異なるデプロイの種類をサポートし、異なるデータ所在地またはスループットの保証を提供します。 詳細については、 デプロイの種類 を参照してください。 この例では、モデルは Global Standard デプロイの種類をサポートしています。
デプロイが完了すると、 Foundry Playgrounds に着陸し、そこでモデルを対話形式でテストできます。 プロジェクトとリソースは、モデルでサポートされているデプロイリージョンのいずれかに存在する必要があります。 デプロイの一覧にデプロイの状態が [成功] と表示されていることを確認します。
モデルの管理
Foundry ポータルを使用して、リソース内の既存のモデル デプロイを管理できます。
右上のナビゲーションで [ ビルド ] を選択します。
左側のウィンドウで [ モデル ] を選択すると、リソース内のデプロイの一覧が表示されます。
デプロイの詳細ページから、エンドポイントの詳細とキーの表示、デプロイ設定の調整、不要になったデプロイの削除を行うことができます。
プレイグラウンドでデプロイをテストする
プレイグラウンドを使用して、Foundry ポータルで新しいモデルを操作できます。 プレイグラウンドは、モデルをリアルタイムで操作できる Web ベースのインターフェイスです。 プレイグラウンドを使用して、さまざまなプロンプトでモデルをテストし、モデルの応答を確認します。
デプロイの一覧から 、Llama-3.2-90B-Vision-Instruct デプロイを選択してプレイグラウンド ページを開きます。
プロンプトを入力し、出力を表示します。
[ コード ] タブを選択すると、プログラムによってモデルのデプロイにアクセスする方法の詳細が表示されます。
コードでモデルを使用する
デプロイされたモデルで推論を実行するには、次の例を参照してください。
Azure によって直接販売されている Foundry Models、例えば Microsoft AI、DeepSeek、Grok モデルで Responses API を利用するには、「Microsoft Foundry Models でテキスト応答を生成する方法」を参照してください。
OpenAI モデルで Responses API を使用するには、「応答 API の概要」を参照してください。
この記事でデプロイされている Llama モデルなど、パートナーが販売するモデルでチャット完了 APIを使用するには、チャット完了用のモデルサポートを参照してください。
モデルの地域での利用可能性とクォータ制限
Foundry モデルの場合、既定のクォータはモデルとリージョンによって異なります。 一部のモデルは、一部のリージョンでのみ使用できます。 可用性とクォータの制限の詳細については、「Microsoft Foundry Models のクォータと制限Azure OpenAI および Microsoft Foundry Models のクォータと制限を参照してください。
モデルで推論をデプロイして実行するためのクォータ
Foundry モデルの場合、推論をデプロイして実行すると、リージョンごと、モデル単位でサブスクリプションに割り当てるAzureクォータが、1 分あたりのトークン (TPM) 単位で消費されます。 Foundry にサインアップすると、使用可能なほとんどのモデルの既定のクォータを受け取ります。 次に、TPM を作成するときに各デプロイに割り当てます。これにより、そのモデルで使用可能なクォータが削減されます。 引き続きデプロイを作成し、クォータ制限に達するまで TPM を割り当てることができます。
クォータ制限に達すると、次の場合にのみ、そのモデルの新しいデプロイを作成できます。
- クォータ の引き上げフォームを送信して、より多くのクォータを要求します。
- Foundry ポータルで他のモデル デプロイに割り当てられたクォータを調整して、新しいデプロイのトークンを解放します。
クォータの詳細については、「Microsoft Foundry Models のクォータと制限および Manage Azure OpenAI クォータを参照してください。
トラブルシューティング
| 問題 | 解像 度 |
|---|---|
| クォータを超えました | クォータの追加を要求 するか、既存のデプロイから TPM を再割り当てします。 |
| リージョンはサポートされていません | リージョンの可用性を確認し、サポートされているリージョンにデプロイします。 |
| Marketplace サブスクリプション エラー | Azure Marketplaceのサービスにサブスクライブするために、必要なアクセス許可があることを確認します。 |
| デプロイの状態が [失敗] と表示される | 選択したリージョンでモデルが使用可能であり、十分なクォータがあることを確認します。 |