Important
この機能は ベータ版です。 アカウント管理者は、アカウント コンソール の [プレビュー ] ページからこの機能へのアクセスを制御できます。 Manage Azure Databricks プレビューを参照してください。
このページでは、 Unity AI Gateway エンドポイントのレート制限を構成する方法について説明します。 レート制限を使用すると、容量とコストを管理するためにエンドポイントに従量制限を適用できます。
必要条件
- Unity AI Gateway プレビューがあなたのアカウントに対して有効になりました。 Manage Azure Databricks プレビューを参照してください。
- Unity AI Gateway でサポートされているリージョン内のAzure Databricks ワークスペース。
エンドポイントでレート制限を構成する
エンドポイントでサポートできる 1 分あたりのクエリ数 (QPM) または 1 分あたりのトークン数 (TPM) を管理および指定できます。
レート制限を有効にするには、Unity AI Gateway エンドポイントを構成するときに [ レート制限 ] を選択します。 クエリベースとトークンベースのレート制限は、次のレベルで定義できます。
| フィールド | 説明 |
|---|---|
| エンドポイント | エンドポイント全体で処理できる最大 QPM または TPM を指定します。 この制限は、ユーザーに関係なく、すべてのトラフィックに適用されます。 |
| ユーザー (既定) | より具体的なカスタム レート制限が定義されていない限り、エンドポイントのすべてのユーザーに適用される既定のユーザーごとのレート制限を指定します。 |
| カスタム レート制限 | カスタム レート制限は、次の場合に指定できます。
|
詳細と動作
- レート制限は、エンドポイントに対してクエリを実行するアクセス許可を持つユーザーにのみ適用されます。
- 既定では、ユーザーまたはエンドポイントに対して構成されたレート制限はありません。
- エンドポイント レートの制限は、グローバルな最大値です。 この制限を超えた場合、ユーザー固有またはグループ固有のレート制限に関係なく、エンドポイントに対するすべての要求がブロックされます。
- エンドポイント、ユーザー、またはサービス プリンシパルにクエリ ベースのレート制限とトークンベースのレート制限の両方が指定されている場合は、より制限の厳しいレート制限が適用されます。
- カスタム レート制限は、 ユーザー (既定) のレート制限をオーバーライドします。
- ユーザーがユーザー固有の制限とグループ固有の制限の両方に属している場合、ユーザー固有の制限が適用されます。
- ユーザーが異なる QPM または TPM レート制限を持つ複数のユーザー グループに属している場合、ユーザーグループのすべての QPM レート制限またはすべての TPM レート制限を超えると、ユーザーはレート制限されます。
レートリミッターの動作
レート制限を超えると、エンドポイントは HTTP 429 (要求が多すぎます) 応答を返します。 クライアントは、指数バックオフを使用して再試行ロジックを実装する必要があります。
レートリミッターは低遅延用に設計されており、次のような動作が期待されます。
- 同時要求は、事前にチェックされません。 システムは応答の送信後に使用状況を記録するため、複数の要求が同じ時点で到着した場合は、使用状況がカウントされる前にすべて処理できます。 その後、容量が回復するまで、要求は拒否されます。 実際には、トラフィックのバーストの後に繰り返しパターンで短い一時停止が続く場合があります。
- 制限はサービス インスタンス間で個別に適用されるため、特にエンドポイントが作成または更新された直後に、構成された制限をわずかに超える短いバーストが発生する可能性があります。
長い時間枠で、平均要求レートは構成された制限に収束します。
制限事項
- エンドポイントごとに最大 20 のレート制限を指定できます。
- エンドポイントごとに最大 5 つのグループ固有のレート制限を指定できます。