エンドポイントにモデルをデプロイする

完了

カタログからモデルを選択した後、それをデプロイして、アプリケーションで使用できるエンドポイントを介してアクセスできるようにします。 Microsoft Foundry ポータルは、デプロイプロセスを案内し、デプロイしたモデルをすぐにテストするためのツールを提供します。

Foundry ポータルの [モデルのデプロイ] インターフェイスのスクリーンショット。

デプロイの種類を理解する

Microsoft Foundry では、複数の展開の種類がサポートされています。それぞれで、データ所在地、スケーリング、課金に異なる特性が提供されます。

  • グローバル標準 モデルのデプロイでは、トークン単位で任意の Azure リージョンを使用できます。 これらは一般的なワークロードに最適であり、最高のクォータを提供します。
  • グローバル プロビジョニング済み デプロイでは、任意の Azure リージョンを使用できます。その使用は、予測可能な高スループットを提供するための予約 済みプロビジョニング スループット ユニット (PTU) ベースに基づいています。
  • グローバル Batch デプロイでは、24 時間以内に大規模な非同期ジョブに対して 50% 割引で任意の Azure リージョンを使用できます。
  • Data Zone Standard のデプロイでは、トークン単位でデータが特定のデータ ゾーン内に収まるようにします。 EU/米国データ ゾーンのコンプライアンスが必要なシナリオに最適です。
  • Data Zone Provisioned デプロイでは、データ ゾーン内の予約済み PTU に基づいて予測可能なスループットが提供されます。
  • データ ゾーン バッチ デプロイは、データ ゾーン内の大規模な非同期バッチ ジョブ用に設計されています。
  • 標準 デプロイは、トークン単位で 1 つのリージョン内にデプロイされます。 これらは、地域のデータ所在地のコンプライアンスが必要な場合や、少量のシナリオに適しています。
  • リージョンプロビジョニング済み デプロイでは、1 つのリージョン内で予約済みの PTU が提供されます。
  • 開発者 開発者向けデプロイでは、トークン単位で任意の Azure リージョンが使用され、微調整されたモデル評価のみを目的としています。

カタログ内の各モデルは、サポートされているデプロイの種類を示します。 ポータルでは、環境とモデルの要件に基づいて最適なデプロイ オプションが自動的に選択されます。 Foundry リソースのグローバル標準デプロイは、可能な限り最大限の機能のために使用する必要があります。

モデルをデプロイする

Microsoft Foundry ポータルからモデルをデプロイするには:

まず、モデル カタログで選択したモデルに移動 します。 Foundry ポータルのホーム ページから、ナビゲーションで [検出 ] を選択し、左側のウィンドウで [モデル ] を選択します。 モデル カードを開き、その仕様とサポートされているデプロイの種類を確認します。

[ デプロイ] を選択してデプロイ プロセスを開始します。 次を選択できます:

  • 推奨される構成を使用して迅速に展開する既定の設定
  • デプロイ オプションをカスタマイズするためのカスタム設定

モデルにAzure Marketplace サブスクリプションが必要な場合 (パートナーとコミュニティのモデルに共通)、使用条件が表示されます。 これらの条件を確認し、[ 同意して続行] を選択して同意します。 GPT-4o-mini などの Azure OpenAI モデルなど、Azureによって直接販売されるモデルには、マーケットプレース サブスクリプションは必要ありません。

展開設定を構成します。

  • デプロイ名: 既定では、システムはモデル名を使用します。 これを変更して、同じモデルの複数のデプロイにわかりやすい名前を作成できます。 推論中、コードでは、 model パラメーターでこのデプロイ名を使用して要求をルーティングします。
  • デプロイの種類: ポータルは、モデルと環境に基づいて適切なデプロイの種類を自動的に選択します。 各モデルは、異なる種類のデプロイをサポートし、異なるデータ所在地またはスループットの保証を提供します。

マネージド コンピューティング デプロイの場合は、次の構成も行います。

  • 仮想マシン SKU: サポートされている VM の種類から選択します。 あなたのサブスクリプションで選択した SKU に対する Azure Machine Learning のコンピュートクォータが必要です。
  • インスタンス数: 負荷分散と冗長性のためにデプロイするインスタンスの数を指定します。

すべての設定を構成したら、[ デプロイ] を選択します。 デプロイが完了すると、Foundry Playground に着陸し、そこでモデルを対話形式でテストできます。 デプロイの一覧にデプロイの状態が [成功] と表示されていることを確認します。

デプロイされたモデルを管理する

デプロイ後、Microsoft Foundry ポータルの [ビルド ] セクションからモデルを管理します。 ナビゲーションで [ビルド ] を選択し、左側のウィンドウで [モデル ] を選択して、リソース内のデプロイの一覧を表示します。

デプロイの一覧から特定のモデルを選択し、その詳細を表示します。

  • デプロイの構成と状態
  • API accessのエンドポイント URL
  • 認証キーまたはトークン
  • 監視と使用状況のメトリック
  • 展開設定を調整するか、デプロイを削除するオプション

デプロイの詳細ページには、アプリケーションがモデルに接続して使用するために必要な情報が表示されます。

遊び場でテストする

Microsoft Foundry ポータルには、コードを記述せずに、デプロイされたモデルをすぐにテストする対話型のプレイグラウンドが含まれています。 デプロイが完了すると、自動的にプレイグラウンドに着陸するか、モデルの一覧からデプロイを選択してプレイグラウンドを開くことができます。

プレイグラウンドはデプロイを事前に選択するので、すぐにテストを開始できます。 チャット インターフェイスで次の操作を行います。

メッセージ ボックスにプロンプトを入力し、応答を確認します。 プレイグラウンドには、入力とモデルの生成された出力の両方が表示され、動作と品質を理解するのに役立ちます。

さまざまな種類のプロンプトを試して、さまざまな機能をテストします。

  • 基本的な理解を確認するための簡単な質問
  • 複雑な複数ステップの推論の問題
  • 特定の形式またはスタイルの要求
  • エッジケースが制限を明らかにする可能性がある場合

モデルの動作をガイドするようにシステム メッセージを調整します。 システム メッセージは、すべてのユーザー入力に適用されるコンテキスト、トーン、および命令を設定します。 たとえば、"customer service担当者として応答する" または "簡潔で技術的な説明を提供する" ようにモデルに指示できます。

温度 (創造性と一貫性)、最大トークン (応答の長さの制限)、top-p (核サンプリング) などのパラメーターを変更して、生成動作を微調整します。

[ コード ] タブを選択すると、デプロイされたモデルをプログラムで呼び出す方法の例が表示されます。 このコード サンプルでは、Python、C#、JavaScript などの言語での認証、エンドポイントの構成、要求の書式設定を示します。 これらのサンプルは、アプリケーションに直接コピーできます。

プレイグラウンドは、モデルをアプリケーションに統合する前に、迅速なエンジニアリングとテストのための開発環境として機能します。

プログラムでモデルにアクセスする

モデルをアプリケーションに統合する準備ができたら、デプロイの詳細から 3 つの重要な情報が必要です。

エンドポイント URL: アプリケーションが要求を送信する API エンドポイント。 Microsoft Foundry では、Foundry 固有の機能のプロジェクト エンドポイントと、OpenAI モデル API との広範な互換性のための OpenAI v1 エンドポイントがサポートされています。

認証キー: 要求を認証するためにアプリケーションが提示する秘密鍵またはトークン。 または、Microsoft Entra ID 認証を使用して、アプリケーションに IS ID に基づいて認証トークンを提示することもできます。 運用シナリオでは、Entra ID 認証をお勧めします。

デプロイ名: デプロイ時に指定した名前。特定のデプロイにルーティングするために API 要求の model パラメーターで使用されます。

アプリケーションでは、これらの詳細を使用して API 要求を作成します。 Microsoft Foundry ポータルには、さまざまなプログラミング言語用の SDK と REST API のドキュメントと、要求の書式設定、認証、応答処理を示すコード サンプルが用意されています。

モデルをデプロイしてテストしたら、それをアプリケーションに統合するか、自動化されたメトリックとテスト データセットを使用してより包括的な評価に進むことができます。