モデルにトークン制限を適用する

Microsoft Foundry コントロール プレーンでは、プロジェクト スコープでのモデルデプロイに対して、1 分あたりのトークン (TPM) レート制限と合計トークン クォータが適用されます。 この強制により、暴走トークンの消費を防ぎ、使用を組織のガードレールに合わせます。 Foundry コントロール プレーンは AI ゲートウェイと統合され、モデルに高度なポリシー適用が提供されます。

この記事では、トークン レート制限とトークン クォータを構成する方法について説明します。

前提 条件

  • アクティブなサブスクリプションを持つAzure アカウント。 お持ちでない場合は、無料試用版サブスクリプションを含む無料Azure アカウントを作成します。

  • AI ゲートウェイが構成された Foundry リソース。 Foundry リソースの AI ゲートウェイを有効にする方法の詳細について説明します

  • デプロイされたモデルが構成済みの AI ゲートウェイに追加された Foundry プロジェクト。 プロジェクトの AI ゲートウェイを有効にするには、Azure API Management リソースの API Management Service Contributor ロール (または Owner) が必要です。

AI ゲートウェイについて

Foundry コントロール プレーンで AI ゲートウェイを使用してモデルに高度なポリシー適用を提供すると、AI ゲートウェイはクライアントとモデルのデプロイの間に配置されます。 それに関連付けられている API Management インスタンスを介して、すべての要求がフローされます。

制限はプロジェクト レベルで適用されます。 つまり、各プロジェクトは、独自の TPM とクォータの設定を持つことができます。

クライアント要求が AI ゲートウェイとして Azure API Management を通過し、プロジェクト内のモデルデプロイに到達する際の論理フローのダイアグラム

次の目的で AI ゲートウェイを使用します。

  • 複数チームのトークン封じ込め (1 つのプロジェクトで容量が独占されないようにする)。
  • 集計使用量を上限にしてコストを管理します。
  • 規制対象ワークロードのコンプライアンス境界 (予測可能な使用上限を適用)。

トークンの制限を構成する

プロジェクト内の特定のモデル デプロイのトークン制限を構成できます。

  1. Microsoft Foundry にサインイン>。 新しいファウンドリーのトグルがオンになっていることを確認します。 これらの手順は Foundry (新規) を参照します。

  2. 操作>管理者を選択します。

  3. AI ゲートウェイの一覧で、使用するゲートウェイを選択します。

  4. 表示されたゲートウェイの詳細ウィンドウで、[ トークン管理] を選択します。

  5. [ + 制限の設定] を選択して、モデル デプロイの新しい制限を作成します。

  6. 制限するプロジェクトとデプロイを選択し、[ 制限] (1 分あたりのトークン数) の値を入力します。

  7. [ 作成] を選択して変更を保存します。

1 分あたりのトークン数と合計トークン クォータ制限の入力ボックスを示すプロジェクト設定ウィンドウのスクリーンショット。

クォータウィンドウを理解する

トークンの制限には、次の 2 つの補完的な適用ディメンションがあります。

  • TPM レート制限: トークンの使用量を 1 分あたりの構成済みの最大値に制限します。 要求が TPM の制限を超えると、呼び出し元は 429 Too Many Requests 応答状態コードを受け取ります。

  • 合計トークン クォータ: トークンの使用量を、クォータ期間ごとに構成された最大値 (時間単位、日単位、週単位、月単位、年単位など) に制限します。 要求がクォータを超えると、呼び出し元は 403 Forbidden 応答状態コードを受け取ります。

多数の要求を同時に送信する場合、トークンの使用量は、応答が処理されるまで、構成された制限を一時的に超える可能性があります。

クォータまたは TPM 値を調整すると、後続の適用の決定に影響します。

詳細については、「Azure API Management の AI ゲートウェイ」および「Limit large language model API token usage」を参照してください。

適用を確認する

  1. プロジェクトのゲートウェイ URL とキーを使用して、モデル デプロイ エンドポイントにテスト要求を送信します。

  2. TPM の制限がトリガーされるまで、要求の頻度を徐々に増やします。

  3. クォータがトリガーされるまで、累積トークンを追跡します。

  4. 次の点を検証します。

    • 429 Too Many Requests (レート制限付き応答) は、要求が TPM の制限を超えると返されます。
    • 403 Forbidden (クォータ エラー) は、要求がクォータを使い果たしたときに返されます。

制限を調整する

  1. プロジェクトの AI ゲートウェイ 設定に戻ります。

  2. TPM またはクォータの値を変更します。

  3. 変更を保存します。 新しい制限は、後続の要求に直ちに適用されます。

トラブルシューティング

問題 考えられる原因 アクション
API Management インスタンスが表示されない プロビジョニングの遅延 数分後に更新します。
制限が適用されない 構成ミスまたはプロジェクトがリンクされていない 設定を再度開き、強制トグルがオンになっていることを確認します。 プロジェクトに対して AI ゲートウェイが有効になっており、正しい制限が構成されていることを確認します。
有効化後の待機時間が長い API Management のコールド スタートまたはリージョンの不一致 API Management リージョンとリソース リージョンを確認します。 モデルを直接呼び出し、結果を AI ゲートウェイ経由でプロキシされた呼び出しと比較して、パフォーマンスの問題がゲートウェイに関連しているかどうかを特定します。

管理コンソールが遅い場合は、しばらくしてから再試行してください。