Azure SRE エージェントの請求の仕組みと、Azure 請求書で何を期待すべきかについて学びます。
2 つの課金コンポーネントは、常時オン フロー (固定) とアクティブ フロー (変数、トークンベース) です。 アクティブ フローは、エージェントが使用する大規模言語モデル (LLM) トークンを測定します。 各トークンの種類は、エージェントの構成済みモデルに基づいて、固定の Azure エージェント ユニット (AAU) レートで測定されます。
ポータルの [設定]>Agent の使用量を監視できます。
課金の仕組み
Azure SRE エージェントの料金は、すべてのあらかじめビルドされた Azure エージェントで使用されるエージェント処理の標準化された指標である AAU に基づいています。 毎月の請求額は、常時接続フローとアクティブ フローの 2 種類の料金を組み合わせたものになります。
常時稼働フロー (固定コスト)
エージェントを作成すると、エージェントが存在する限り、固定料金で課金されます。
| コンポーネント | 料金 |
|---|---|
| Always-on フロー | エージェント 1 時間あたり 4 AAU |
常時稼働フローは、エージェントが常に作業を処理していることを意味するわけではありません。 これは、エージェントのプロビジョニングと使用可能な状態を維持するためのベースライン コストを表します。 常時稼働課金は、エージェントが作成された時点からエージェントが削除されるまで継続されます。
アクティブ フロー (変動コスト)
エージェントが動作するたびに、エージェントはアクティブ フロー AAU を消費します。 作業例としては、ユーザーが対話形式で質問をしたり、自動化によってタスクがトリガーされたり、非同期操作がバックグラウンドで実行されたりする場合があります。 エージェントがアクティブに処理を行っている場合は、作業の開始方法に関係なく、アクティブ フローとしてカウントされます。
トークンが AU になる方法
エージェントが動作するたびに、LLM トークンが使用されます。 各トークンの種類は、次の表に示す速度で個別に測定されます。
| トークンの種類 | 測定対象 |
|---|---|
| 入力 | モデルに送信されるトークン (プロンプト、ツールの結果、コンテキスト)。 |
| アウトプット | モデルによって生成されたトークン (応答と推論)。 |
| キャッシュ読み取り | プロンプトキャッシュからトークンが提供される(コンテキストの繰り返し)。 |
| キャッシュ書き込み | 将来の再利用を求めるためにキャッシュに書き込まれたトークン。 |
タスクのアクティブ フロー AU の合計は、4 つのトークンの種類すべてに対する AU の合計と等しくなります。
モデル別の AAU レート
次の表は、100 万トークンあたりに使用された AU の数を示しています。
| Model | 入力 | アウトプット | キャッシュ読み取り | キャッシュ書き込み |
|---|---|---|---|---|
| クロード作品4.6 | 100 AAU | 500 AAU | 10 AAU | 125 AAU |
| GPT 5.3 Codex | 35 AAU | 280 AAU | 3.5 AAU | — |
| GPT 5.2 | 35 AAU | 280 AAU | 3.5 AAU | — |
レートは 100 万トークンあたりです。 2026 年 4 月 15 日より 今後、より多くのモデルとプロバイダーが追加される可能性があります。 AAU レートは Azure によって設定され、新しいモデルがリリースされると更新される可能性があります。
重要な詳細
- 処理時間のカウントのみ: エージェントが応答の待機に費やした時間は、アクティブ フローとして課金されません。
- アクティブ フローは毎月リセットされます。 AU の消費カウンターは、各カレンダー月の初めにリセットされます。
- プロバイダーはエージェント レベルで設定されます。 モデル プロバイダー (Anthropic、OpenAI など) は、エージェントの設定で構成されます。 対応するモデルによって、AAU レートが決まります。
タスクの種類別のアクティブ フロー
消費されるトークンの数は、その結果、課金される AU になりますが、タスクの複雑さによって異なります。 より複雑なタスクでは、より多くの LLM 推論手順、ツール呼び出し、およびデータ処理が必要になります。これは、より多くのトークンを意味します。
次の表は、一般的なシナリオでトークンの消費量が AU にどのように変換されるかを示しています。
| シナリオ | 入力トークン | 出力トークン | キャッシュ読み取り | キャッシュ書き込み | Claude Opus 4.6 AAU | GPT 5.3 Codex AAU | 例 |
|---|---|---|---|---|---|---|---|
| クイック質問 | ~20K | 約2000 | ~15K | 約5000 | ~3.8 | ~1.6 | "最近のアラートを表示する" |
| インシデントの調査 | ~200K | ~15K | ~150K | ~50K | ~35.5 | ~13.7 | Azure Monitor からの自動インシデント。 |
| 完全修復 | ~500K | 約40,000 | 約400キロバイト | ~100K | 86.5 | ~33.9 | "失敗したデプロイを診断して修正します。" |
数学のしくみ
次の表は、クイック質問行の数値を使用した、前述の Claude Opus 4.6 の例の数学を示しています。
| トークンの種類 | トークン | 1M あたりのレート | AAUs |
|---|---|---|---|
| 入力 | 20K | 100 | 2.0 |
| アウトプット | 2K | 500 | 1.0 |
| キャッシュ読み取り | 15,000 | 10 | 0.15 |
| キャッシュ書き込み | 5K | 125 | 0.625 |
| Total | 3.775 AAU |
ヒント
アクティブなフロー コストを予測可能な状態に保つには、 設定>Agent 消費量で毎月の AAU 割り当て制限を設定します。
コストを監視する
SRE エージェント ポータルで
[設定]>エージェントの使用量に移動して使用状況を表示します。
- 月次 AAU リミット: 常時オンとアクティブフローの割り当ての合計を表示します。
- アクティブなフロー消費量の合計: 現在の使用状況と制限を比較する進行状況バーが表示されます。
- 毎日アクティブなフローの消費量: 現在の月の 1 日あたりの AAU 使用量を示す横棒グラフを表示します。
- トークンの使用状況の内訳: カテゴリ (入力、出力、キャッシュ読み取り、キャッシュ書き込み) によって消費されたトークンの合計を表示して、AAU の実行場所を正確に確認できます。
アクティブなフローの使用制限を設定する
[ AAU 割り当ての変更 ] を選択して、月間アクティブ フロー AAU 制限 (最小 500、最大 1,000,000 AU) を設定します。 この制限は、アクティブなフローにのみ適用されます。 エージェントが存在する限り、常時稼働課金は継続されます。
- エージェントがアクティブなフロー制限に達すると、翌月までチャットとアクションに使用できなくなります。 その月の残りの期間は、常時オン料金が継続されます。
- 割り当てをいつでも増減できます。
- 増加は 直ちに適用されます。 現在の消費量を超えて制限を引き上げると、チャットとアクションはすぐに再開されます。
- 現在の消費量を下回る減少は、来月有効になります。 それまでは、エージェントは常時稼働フローでのみ実行されます。
アクションによる課金の影響
| アクション | アクティブ フロー | 常時オン | 来月再開する |
|---|---|---|---|
| 予算制限の設定 (ヒット制限) | 停止 | 引き続き課金 | 月の開始時に自動的にリセットされます。 |
| エージェントの停止 | 停止 | 引き続き課金 | [設定] で [スタート]>[基本] を手動で選択します。 |
| エージェントを削除する | 停止 | 停止 | 新しいエージェントを作成する |
Microsoft Cost Management で
複数のエージェントとリソースにわたる詳細な課金の内訳については、Azure portal で Microsoft Cost Management を使用します。
コスト最適化のヒント
| 戦略 | 影響 | それを行う方法 |
|---|---|---|
| エージェントにコンテキストを追加します。 | 無駄なトークンが少なくなります。 | エージェントが根拠と簡潔な状態を維持できるように、スキル、知識、ドキュメントを追加します。 過去の対話からの永続的なメモリにより、時間の経過と伴う効率が向上します。 |
| 対応計画を使用してインシデントをフィルター処理します。 | 不要な作業を減らします。 | 応答プランを使用して、重大度、サービス、またはキーワードで Azure Monitor アラートをフィルター処理します。 エージェントは、一致するインシデントのみを調査します。 |
| スケジュールされたタスクをバッチ処理します。 | 実行回数が減少する。 | 継続的にポーリングするのではなく、毎日または毎週実行するようにタスクをスケジュールします。 |
| 自動化する前にチャットでテストします。 | 無駄な実行を回避します。 | 最初にチャットまたはプレイグラウンドでプロンプトを試してみてください。 正しく構成されていない自動化が繰り返し実行され、AU が無駄になります。 |
| アイドル状態のエージェントを停止する。 | アクティブなフローを排除します。 | [設定]>[基本]に移動し、[停止]を選択します。 エージェントは構成を保持しますが、アクティブなすべてのフローを停止します。 常時接続のコストは削除されるまで維持されます。 |
| 未使用のエージェントを削除します。 | すべてのコストを排除します。 | Azure SRE エージェントの Web ページで、エージェントを開き、設定>Basics>Delete エージェントに移動します。 すべての課金は即座に停止する。 |
よく寄せられる質問
エージェントはトークンから AU をどのように計算しますか?
エージェントが作業を実行するたびに、4 つのトークンの種類すべてで使用された LLM トークンが追跡され、構成済みのモデルの AAU レートで測定されます。 AAU の使用量は、[設定]>Agent の使用量で確認できます。
選択したプロバイダーはコストに影響しますか?
モデル プロバイダー (Anthropic、OpenAI など) はエージェント レベルで設定され、適用される AAU レートが決まります。 モデルによってレートが異なります。 現在のレートについては、 AAU レートの表を参照してください。
どのモデルを選択すればよいですか?
Claude Opus 4.6 では AAU レートが高くなりますが、通常は推論手順が少なく、より詳細な調査が行われます。 複雑なインシデント調査と根本原因分析において、Opus は通常、より少ないツール呼び出しで結論に達するため、トークンあたりのレートが高くてもそれを相殺できます。
GPT モデルは、コスト効率が深さ以上に重要な、スケジュールされたコンプライアンス チェックなどの、よりシンプルで大量のタスクに適しています。 モデル プロバイダーは 、設定>Basics でいつでも変更でき、結果を比較できます。
エージェントが応答を待機しているときに課金されますか?
No. エージェントがアクティブにタスクの処理に費やした時間のみが、アクティブ フローとしてカウントされます。 エージェントが承認を求めて待機した場合、待機時間は課金されません。
アクティブ フローとしてカウントされる内容
エージェントがアクティブに作業を行っている場合は、次の例のように、アクティブフローとしてカウントされます。
- 対話型プロンプト: チャットでエージェントに質問するユーザー。
- 自動化: スケジュールされたタスク、インシデント対応計画、またはその他の自動化されたトリガー。
- 非同期操作: バックグラウンド調査、レポート生成、または修復タスク。
いずれの場合も、エージェントは AU として消費されたトークンを測定します。
エージェントを停止するとどうなりますか?
停止したエージェントは、リソースを監視したり、プロンプトに応答したりすることはできませんが、固定の常時接続コストが引き続き発生します。 アクティブフロー AAU は停止中に消費されません。 エージェントを停止するには、[>] に移動し、[停止] を選択します。 再開するには、同じページから [開始] を選択します。 すべての課金を完全に停止するには、エージェントを削除します。
1 つのエージェントで複数のワークロードを処理できますか?
Yes. 1 つのエージェントは、構成されたスコープ内の複数のリソースを監視できます。 1 つのエージェントでワークロードを統合すると、個別のエージェントをデプロイする場合と比較して、常時オンコストが削減されます。
無料のプランはありますか?
No. Azure SRE エージェントの料金は、エージェントの作成時に開始されます。 現在の料金については、 Azure 料金計算ツールを参照してください。
価格はすべてのリージョンで同じですか?
リージョンの現在の価格については、 Azure 料金計算ツールを確認してください。