Unity AI Gateway エンドポイントを構成する

Important

この機能はベータ版です。アカウント管理者は、アカウントコンソール の [プレビュー ] ページからこの機能へのアクセスを制御できます。 Manage Azure Databricks プレビューを参照してください。

このページでは、 Unity AI Gateway エンドポイントを構成する方法について説明します。

Requirements

Unity AI Gateway プレビューがあなたのアカウントに対して有効になりました。 Manage Azure Databricks プレビューを参照してください。
Unity AI Gateway でサポートされているリージョン内のAzure Databricks ワークスペース。
ワークスペースに対して有効になっている Unity カタログ。「Unity Catalog のワークスペースを有効にする」を参照してください。

Unity AI Gateway エンドポイントを作成する

Unity AI Gateway エンドポイントを作成するには:

サイドバーで、[ AI ゲートウェイ] をクリックします。
[ Create Unity AI Gateway Endpoint]\(Unity AI ゲートウェイエンドポイントの作成\) をクリックします。
エンドポイント名とプライマリモデルを構成します。
Create をクリックしてください。

エンドポイントで機能を構成する

Unity AI Gateway エンドポイントを更新して、機能を有効または無効にすることができます。 Unity AI Gateway の構成の更新が有効になるまでに最大 1 分かかります。

既存のエンドポイントで Unity AI Gateway の機能を更新するには:

[AI ゲートウェイ] ページからエンドポイントをクリックします。
[ゲートウェイエンドポイントの詳細] サイドバーで、更新する機能の横にある編集アイコンをクリックします。
変更を加え、[ 保存] をクリックします。

AI ゲートウェイ UI

次の表は、使用可能な Unity AI Gateway の機能とその構成方法をまとめたものです。

特徴	構成する方法	詳細情報
使用状況の追跡	既定で有効になっています。	使用状況データを `system.ai_gateway.usage` システムテーブルに記録します。アカウント管理者は、システムテーブルを使用する前に、 `ai_gateway` システムテーブルスキーマを有効にする必要があります。システムテーブルへのアクセス権の付与を参照してください。 `system.ai_gateway.usage` テーブルを表示または照会するアクセス許可を持つのは、アカウント管理者だけです。入力トークン数と出力トークン数は、トークン数がモデルによって返されない場合 `(text_length+1)/4` として推定されます。
推論テーブル	[ 推論テーブルを有効にする] を選択して、要求と応答をログに記録します。	Unity カタログデルタテーブルにログを記録します。指定したカタログスキーマに `CREATE TABLE` 権限が必要です。 10 MiB を超えるペイロードはログに記録されません。応答ペイロードは、返されるすべてのチャンクの応答を集計します。
転送率の制限	[ レート制限 ] を選択して、1 分あたりのクエリ (QPM) または 1 分あたりのトークン数 (TPM) を構成します。	エンドポイント、ユーザー、またはグループレベルで制限を構成します。 [ エンドポイント ] フィールドを使用して、グローバル制限を設定します。エンドポイントレートの制限は、グローバルな最大値です。超過すると、すべての要求がブロックされます。 [ユーザー] (既定) フィールドを使用して、ユーザーごとの制限を設定します。個々のユーザー、サービスプリンシパル、またはグループのカスタムレート制限を定義します。
ガードレール	[Guardrails] を選択してコンテンツポリシーを構成します。	個人を特定できる情報 (PII) の検出、コンテンツモデレーション、およびその他の事前構築済みの LLM ベースのポリシーを要求と応答に適用します。ブロックされた要求は HTTP 400 を返し、使用状況の追跡と推論のテーブルに記録されます。運用トラフィックに影響を与えずにガードレール構成をテストするためにドライランを有効にします。ドライランモードでは、ガードレールは評価されますが、要求や応答がブロックされたり変更されたりすることはありません。
Fallbacks	フォールバックモデルを構成するには、[フォールバックモデルの追加] を選択します。	プライマリモデルが `429` エラーまたは `5XX` エラーを返すと、要求は他のモデルにフォールバックします。各フォールバックモデルは、要求が成功するまで順番に 1 回試行されます。最初の成功または最後に失敗した要求の試行と応答は、使用状況の追跡テーブルと推論テーブルの両方に記録されます。フォールバック試行はすべて、`routing_information`のフィールドに記録されます。
トラフィックの分割	複数のモデルバックエンドに要求を分散するには、[ トラフィック分割の追加] を選択します。	各宛先モデルにトラフィックの割合を割り当てます。パーセンテージは 100 に合計する必要があります。トラフィック分割を使用して、新しいモデルを段階的にロールアウトしたり、A/B テストを実行したり、プロバイダー間で負荷を分散したりできます。ルーティングに関するすべての決定は、`routing_information`のフィールドに記録されます。
カスタム API	外部 API に接続するエンドポイントを作成するときに、[カスタム API] を選択します。	外部 API エンドポイントに同じアクセス制御、レート制限、ログ記録を適用します。カスタム API トラフィックは使用状況の追跡と推論のテーブルに記録されます。一部の制限事項があります。トークンカウントは使用状況の追跡では使用できない可能性があり、ストリーミング要求の応答チャンク集計は推論テーブルでは使用できない場合があります。

次の図は、3 つのモデルが Unity AI Gateway エンドポイントの宛先として登録されるフォールバックの例を示しています。

要求は、最初はモデル 1 にルーティングされます。
要求から 200 応答が返された場合、要求はモデル 1 で成功し、要求とその応答は使用状況の追跡テーブルと推論テーブルに記録されます。
要求がモデル 1 で 429 または 5XX エラーを返した場合、要求はエンドポイントの次のモデルである Model 2 にフォールバックします。
要求がモデル 2 で 429 または 5XX エラーを返した場合、要求はエンドポイントの次のモデルであるモデル 3 にフォールバックします。
要求がモデル 3 で 429 または 5XX エラーを返した場合、すべてのフォールバックモデルが試みられたため、要求は失敗します。失敗した要求と応答エラーは、使用状況の追跡テーブルと推論テーブルに記録されます。

フォールバックの例

次のステップ

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-04-25