Unity AI Gateway エンドポイントを構成する

Important

この機能は ベータ版です。 アカウント管理者は、アカウント コンソール の [プレビュー ] ページからこの機能へのアクセスを制御できます。 Manage Azure Databricks プレビューを参照してください。

このページでは、 Unity AI Gateway エンドポイントを構成する方法について説明します。

Requirements

Unity AI Gateway エンドポイントを作成する

Unity AI Gateway エンドポイントを作成するには:

  1. サイドバーで、[ AI ゲートウェイ] をクリックします。
  2. [ Create Unity AI Gateway Endpoint]\(Unity AI ゲートウェイ エンドポイントの作成\) をクリックします。
  3. エンドポイント名とプライマリ モデルを構成します。
  4. Create をクリックしてください。

エンドポイントで機能を構成する

Unity AI Gateway エンドポイントを更新して、機能を有効または無効にすることができます。 Unity AI Gateway の構成の更新が有効になるまでに最大 1 分かかります。

既存のエンドポイントで Unity AI Gateway の機能を更新するには:

  1. [AI ゲートウェイ] ページからエンドポイントをクリックします。
  2. [ゲートウェイ エンドポイントの詳細] サイドバーで、更新する機能の横にある編集アイコンをクリックします。
  3. 変更を加え、[ 保存] をクリックします。

AI ゲートウェイ UI

次の表は、使用可能な Unity AI Gateway の機能とその構成方法をまとめたものです。

特徴 構成する方法 詳細情報
使用状況の追跡 既定で有効になっています。
  • 使用状況データを system.ai_gateway.usage システム テーブルに記録します。
  • アカウント管理者は、システム テーブルを使用する前に、 ai_gateway システム テーブル スキーマを有効にする必要があります。 システム テーブルへのアクセス権の付与を参照してください。
  • system.ai_gateway.usage テーブルを表示または照会するアクセス許可を持つのは、アカウント管理者だけです。
  • 入力トークン数と出力トークン数は、トークン数がモデルによって返されない場合 (text_length+1)/4 として推定されます。
推論テーブル [ 推論テーブルを有効にする] を 選択して、要求と応答をログに記録します。
  • Unity カタログ デルタ テーブルにログを記録します。
  • 指定したカタログ スキーマに CREATE TABLE 権限が必要です。
  • 10 MiB を超えるペイロードはログに記録されません。
  • 応答ペイロードは、返されるすべてのチャンクの応答を集計します。
転送率の制限 [ レート制限 ] を選択して、1 分あたりのクエリ (QPM) または 1 分あたりのトークン数 (TPM) を構成します。
  • エンドポイント、ユーザー、またはグループ レベルで制限を構成します。
    • [ エンドポイント ] フィールドを使用して、グローバル制限を設定します。 エンドポイント レートの制限は、グローバルな最大値です。 超過すると、すべての要求がブロックされます。
    • [ユーザー] (既定) フィールドを使用して、ユーザーごとの制限を設定します。
      • 個々のユーザー、サービス プリンシパル、またはグループのカスタム レート制限を定義します。
ガードレール [Guardrails] を選択してコンテンツ ポリシーを構成します。
  • 個人を特定できる情報 (PII) の検出、コンテンツ モデレーション、およびその他の事前構築済みの LLM ベースのポリシーを要求と応答に適用します。
  • ブロックされた要求は HTTP 400 を返し、使用状況の追跡と推論のテーブルに記録されます。
  • 運用トラフィックに影響を与えずにガードレール構成をテストするためにドライ ランを有効にします。 ドライ ラン モードでは、ガードレールは評価されますが、要求や応答がブロックされたり変更されたりすることはありません。
Fallbacks フォールバック モデルを構成するには 、[フォールバック モデルの追加] を選択します。
  • プライマリ モデルが 429 エラーまたは 5XX エラーを返すと、要求は他のモデルにフォールバックします。
  • 各フォールバック モデルは、要求が成功するまで順番に 1 回試行されます。
  • 最初の成功または最後に失敗した要求の試行と応答は、使用状況の追跡テーブルと推論テーブルの両方に記録されます。
  • フォールバック試行はすべて、routing_information フィールドに記録されます。
トラフィックの分割 複数のモデル バックエンドに要求を分散するには、[ トラフィック分割の追加] を選択します。
  • 各宛先モデルにトラフィックの割合を割り当てます。 パーセンテージは 100 に合計する必要があります。
  • トラフィック分割を使用して、新しいモデルを段階的にロールアウトしたり、A/B テストを実行したり、プロバイダー間で負荷を分散したりできます。
  • ルーティングに関するすべての決定は、routing_informationフィールドに記録されます。
カスタム API 外部 API に 接続するエンドポイントを作成するときに、[カスタム API] を選択します。
  • 外部 API エンドポイントに同じアクセス制御、レート制限、ログ記録を適用します。
  • カスタム API トラフィックは使用状況の追跡と推論のテーブルに記録されます。一部の制限事項があります。トークンカウントは使用状況の追跡では使用できない可能性があり、ストリーミング要求の応答チャンク集計は推論テーブルでは使用できない場合があります。

次の図は、3 つのモデルが Unity AI Gateway エンドポイントの宛先として登録されるフォールバックの例を示しています。

  1. 要求は、最初はモデル 1 にルーティングされます。
  2. 要求から 200 応答が返された場合、要求はモデル 1 で成功し、要求とその応答は使用状況の追跡テーブルと推論テーブルに記録されます。
  3. 要求がモデル 1 で 429 または 5XX エラーを返した場合、要求はエンドポイントの次のモデルである Model 2 にフォールバックします。
  4. 要求がモデル 2 で 429 または 5XX エラーを返した場合、要求はエンドポイントの次のモデルであるモデル 3 にフォールバックします。
  5. 要求がモデル 3 で 429 または 5XX エラーを返した場合、すべてのフォールバック モデルが試みられたため、要求は失敗します。 失敗した要求と応答エラーは、使用状況の追跡テーブルと推論テーブルに記録されます。

フォールバックの例

次のステップ