モデルにトークン制限を適用する

Microsoft Foundry コントロールプレーンでは、プロジェクトスコープでのモデルデプロイに対して、1 分あたりのトークン (TPM) レート制限と合計トークンクォータが適用されます。この強制により、暴走トークンの消費を防ぎ、使用を組織のガードレールに合わせます。 Foundry コントロールプレーンは AI ゲートウェイと統合され、モデルに高度なポリシー適用が提供されます。

この記事では、トークンレート制限とトークンクォータを構成する方法について説明します。

前提条件

アクティブなサブスクリプションを持つAzure アカウント。お持ちでない場合は、無料試用版サブスクリプションを含む無料Azure アカウントを作成します。
AI ゲートウェイが構成された Foundry リソース。 Foundry リソースの AI ゲートウェイを有効にする方法の詳細について説明します。
デプロイされたモデルが構成済みの AI ゲートウェイに追加された Foundry プロジェクト。プロジェクトの AI ゲートウェイを有効にするには、Azure API Management リソースの API Management Service Contributor ロール (または Owner) が必要です。

AI ゲートウェイについて

Foundry コントロールプレーンで AI ゲートウェイを使用してモデルに高度なポリシー適用を提供すると、AI ゲートウェイはクライアントとモデルのデプロイの間に配置されます。それに関連付けられている API Management インスタンスを介して、すべての要求がフローされます。

制限はプロジェクトレベルで適用されます。つまり、各プロジェクトは、独自の TPM とクォータの設定を持つことができます。

クライアント要求が AI ゲートウェイとして Azure API Management を通過し、プロジェクト内のモデルデプロイに到達する際の論理フローのダイアグラム

次の目的で AI ゲートウェイを使用します。

複数チームのトークン封じ込め (1 つのプロジェクトで容量が独占されないようにする)。
集計使用量を上限にしてコストを管理します。
規制対象ワークロードのコンプライアンス境界 (予測可能な使用上限を適用)。

トークンの制限を構成する

プロジェクト内の特定のモデルデプロイのトークン制限を構成できます。

Microsoft Foundry にサインイン>。 新しいファウンドリーのトグルがオンになっていることを確認します。これらの手順は Foundry (新規) を参照します。
操作>管理者を選択します。
AI ゲートウェイの一覧で、使用するゲートウェイを選択します。
表示されたゲートウェイの詳細ウィンドウで、[ トークン管理] を選択します。
[ + 制限の設定] を選択して、モデルデプロイの新しい制限を作成します。
制限するプロジェクトとデプロイを選択し、[ 制限] (1 分あたりのトークン数) の値を入力します。
[ 作成] を選択して変更を保存します。

クォータウィンドウを理解する

トークンの制限には、次の 2 つの補完的な適用ディメンションがあります。

TPM レート制限: トークンの使用量を 1 分あたりの構成済みの最大値に制限します。要求が TPM の制限を超えると、呼び出し元は 429 Too Many Requests 応答状態コードを受け取ります。
合計トークンクォータ: トークンの使用量を、クォータ期間ごとに構成された最大値 (時間単位、日単位、週単位、月単位、年単位など) に制限します。要求がクォータを超えると、呼び出し元は 403 Forbidden 応答状態コードを受け取ります。

多数の要求を同時に送信する場合、トークンの使用量は、応答が処理されるまで、構成された制限を一時的に超える可能性があります。

クォータまたは TPM 値を調整すると、後続の適用の決定に影響します。

詳細については、「Azure API Management の AI ゲートウェイ」および「Limit large language model API token usage」を参照してください。

適用を確認する

プロジェクトのゲートウェイ URL とキーを使用して、モデルデプロイエンドポイントにテスト要求を送信します。
TPM の制限がトリガーされるまで、要求の頻度を徐々に増やします。
クォータがトリガーされるまで、累積トークンを追跡します。
次の点を検証します。
- 429 Too Many Requests (レート制限付き応答) は、要求が TPM の制限を超えると返されます。
- 403 Forbidden (クォータエラー) は、要求がクォータを使い果たしたときに返されます。

制限を調整する

プロジェクトの AI ゲートウェイ 設定に戻ります。
TPM またはクォータの値を変更します。
変更を保存します。新しい制限は、後続の要求に直ちに適用されます。

トラブルシューティング

問題	考えられる原因	アクション
API Management インスタンスが表示されない	プロビジョニングの遅延	数分後に更新します。
制限が適用されない	構成ミスまたはプロジェクトがリンクされていない	設定を再度開き、強制トグルがオンになっていることを確認します。プロジェクトに対して AI ゲートウェイが有効になっており、正しい制限が構成されていることを確認します。
有効化後の待機時間が長い	API Management のコールドスタートまたはリージョンの不一致	API Management リージョンとリソースリージョンを確認します。モデルを直接呼び出し、結果を AI ゲートウェイ経由でプロキシされた呼び出しと比較して、パフォーマンスの問題がゲートウェイに関連しているかどうかを特定します。

管理コンソールが遅い場合は、しばらくしてから再試行してください。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-04-30