Advanced Container Networking Services に関する AKS ネットワークの問題を診断して解決する

このガイドでは、Advanced Container Networking Services (ACNS) を使用したAzure Kubernetes Service (AKS)での実際のネットワークの問題の診断と解決について説明します。各プレイブックは、症状 (DNS エラー、パケットドロップ、トラフィックの不均衡、L7 エラー) から始まり、最初に確認するシグナルを示し、ログにドリルダウンするタイミングを示します。

このガイドは、機能ではなくタスクに関して整理されています。メンタルモデルを 1 回読み、症状に一致するプレイブックに直接ジャンプします。

このガイドが解決に役立つ内容

ポッドでの DNS 解決エラー (NXDOMAIN、SERVFAIL、応答がありません)。
正しく構成されていないネットワークポリシー、接続の追跡、または接続の低下によって発生するパケットのドロップ。
ポッドまたは名前空間間のトラフィックの不均衡 (ホットポッド、不均等な負荷分散)。
L7 アプリケーションエラー (HTTP 4xx/5xx、gRPC エラー、Kafka ドロップ)。
クラスター全体のネットワーク正常性 の監視と容量計画。
対象となるメトリックとログの収集による監視コスト制御。

メンタルモデル: メトリック、ログ、フィルター処理がどのように連携するか

ACNS は 3 つのシグナルを提供します。それぞれが異なる質問に答えます。

信号	回答	最適な用途	存在する場所
コンテナーネットワークメトリック	どのような規模で何が起こっていますか?	異常検出、ダッシュボード、アラート、容量計画	Azure Managed Prometheus + Grafana
コンテナーネットワークログ (格納済み)(Cilium のみ)	なぜそれが起こったのですか? どのポッド、どのような判定ですか?	根本原因分析、過去の傾向、コンプライアンス	Log Analytics ワークスペース (`ContainerNetworkLogs` テーブル)、Azure ポータルダッシュボード、または OpenTelemetry 互換コレクター (Splunk、Datadog など)
コンテナーネットワークログ (オンデマンド)(Cilium のみ)	現在何が起こっていますか?	アクティブなインシデント中のライブデバッグ	Hubble CLI、Hubble UI
メトリックのフィルター処理(Cilium のみ)	実際に必要なシグナルはどれですか?	重要なワークロードへのコレクションのスコープ設定、コスト管理	`ContainerNetworkMetric` Crd
ログフィルターと集計(Cilium のみ)	実際に必要なフローはどれですか?	ログキャプチャを重要なトラフィック、コスト制御にスコープ設定する	`ContainerNetworkLog` Crd
Container Network Insights エージェント(プレビュー)	どこから始めるのですか?	メトリック、Hubble フロー、Cilium ポリシー、CoreDNS、ホストレベルの NIC/カーネルカウンターにわたる AI 駆動型 RCA	ブラウザー経由でアクセスされるクラスター内 Web アプリ

注

コンテナーネットワークログ (保存およびオンデマンド)、 ContainerNetworkLog CRD、ログフィルタリング、フローログの集計はすべて Cilium データプレーンを必要とします。 Cilium 以外のクラスターでは、トリアージにコンテナーネットワークメトリックを使用し、より詳細な調査のためにクラスターレベルのネットワークテレメトリに依存します。

より詳細な機能リファレンスについては、コンテナーネットワークメトリック、コンテナーネットワークログ、およびメトリックフィルターの構成に関する記事を参照してください。

標準のトラブルシューティングフロー

ネットワークインシデントには、次のループを使用します。

メトリックダッシュボードから開始します。 異常を確認します。ドロップ数の急増、エラー、TCP リセット、または DNS エラー。影響を受けるノード、名前空間、またはワークロードを特定します。
保存されたログに移行します。 手順 1 の名前空間と時間枠で ContainerNetworkLogs テーブルをフィルター処理します。ログには、判定、ドロップ理由、ソース/宛先ワークロード、メトリックに含まれない L7 状態コードが示されます。
オンデマンドログを使用してライブで再現します。 問題が断続的であるか、保存されているデータで既に修正されている場合は、Hubble CLI または Hubble UI を使用してそのワークロードのライブフローをキャプチャします。
修正プログラムを検証します。 同じメトリックパネルを再確認し、同じ KQL クエリを再実行します。異常はなくなりました。
コレクションをチューニングします。 インシデント中に過剰に収集した場合は、 ContainerNetworkLog CRD を絞り込むか、 ContainerNetworkMetric フィルターを適用して、今後必要なものだけをキャプチャします。

Tip

ダッシュボードをクリックする代わりに問題を説明しますか? Container Network Insights Agent (プレビュー) では、問題を分類し、 kubectl、Cilium、Hubble、CoreDNS、ホストレベルのネットワーク統計を通じて証拠を収集し、修復コマンドを使用して構造化された RCA を返すことで、手順 1 から 3 を自動化します。エージェントは、このガイドを置き換えるのではなく補完し、迅速な初期評価を提供します。一方、ここにあるプレイブックを使うことで、検証やさらに深い理解に進むことができます。エージェントは読み取り専用です。引き続き修正プログラムを自分で適用します。

注

ACNS メトリックは待機時間を測定しません。待機時間の分析には、Azure Monitorアプリケーションのパフォーマンスメトリックまたはサービスメッシュテレメトリを使用します。 ACNS では、トラフィック量、ドロップ数、ドロップ理由、TCP 状態、TCP リセット、DNS クエリ/応答の数とコード、L4/L7 フローの判定が表示されます。

標準ダッシュボードを一目で見る

Container Network Observability を設定して、一度だけこれを行います。各プレイブックの随所で参照します。

ダッシュボード	必要な場合に使用します...
クラスター	ノードごとに転送および破棄されたバイトとパケットの状況を、フリート全体の視点から確認できます。
DNS (クラスター)	クラスター全体で DNS の問題を特定します。
DNS (ワークロード)	1 つの Deployment/DaemonSet (たとえば、CoreDNS) の DNS 動作を詳細に調べます。
破棄 (ワークロード)	特定のワークロードのドロップレート、ドロップ理由、および方向を参照してください。
ポッドフロー (名前空間)	最も多くのトラフィックまたはドロップを送受信している名前空間内のポッドを見つけます。
ポッドフロー (ワークロード)	単一のワークロードの L4/L7 フローを、TCP リセットを含む詳細を調べます。
L7 フロー (名前空間/ワークロード)	HTTP、gRPC、Kafka の各フローを調べます。 Cilium のデータプレーンのみを使用し、L7 ポリシーが必要です。
フローログ/フローログ (外部トラフィック)	格納されているコンテナーネットワークログAzureポータルまたは Grafana で視覚化します。

プレイブック 1: DNS 解決エラーを診断する

症状。 ポッドは、サービス名の解決中に DNS_PROBE_FINISHED_NXDOMAIN、 SERVFAIL などのエラーを記録したり、ハングしたりすることがあります。

目標。 障害がアップストリーム (CoreDNS または外部リゾルバー)、ポリシードリブン (FQDN 拒否)、ワークロード固有のいずれであるかを特定します。

手順 1: DNS メトリックの異常を確認する

DNS (クラスター) ダッシュボードを開きます。要求ボリューム、応答ボリューム、または 要求不足応答 %の急激な変化を探します。概要パネルには、最も一般的なクエリ、最も一般的な応答コード、および最も多くのエラーを生成するノードが表示されます。

検索対象: エラー応答の継続的な増加、成功した応答の低下、またはエラー数を支配する単一ノード。異常のタイムスタンプをメモします。

手順 2: 最も騒々しいポッドを識別する

同じダッシュボードを下にスクロールして、すべての名前空間の DNS エラーによってポッドをランク付けするパネルに移動します。上位のエントリが最初の候補です。

決定ポイント。

エラーが CoreDNS ポッドに集中している場合は、選択されている kube-system / coredns ダッシュボードに移動します。CoreDNS 自体またはそのアップストリームリゾルバーが問題です。
エラーがアプリケーションワークロードに集中している場合、そのワークロードは不適切なクエリを生成しているか、FQDN ポリシーによって拒否されています。

手順 3: 影響を受けるワークロードの詳細を調べる

特定した ワークロードの DNS (ワークロード) ダッシュボードを開きます。

DNS 要求/DNS 応答パネル。 Requests Missing Response % が高い場合、アップストリームタイムアウトまたはクエリのオーバーロードを示します。
種類別の DNS エラー。 スパイクをコードに一致させます。
- NXDOMAIN — アプリ構成のドメイン名が間違っているか古い。
- SERVFAIL — アップストリームリゾルバーの問題。
- クエリ拒否 — FQDN ポリシーまたは DNS 構成の不一致。
返された DNS 応答 IP。 成功した解決率を確認します。通常、低下は CoreDNS がアップストリームに到達できないことを意味します。急激な急増は、クエリの嵐を示している可能性があります。
DNS 応答テーブル。 これを使用して、"A records fail but AAAA records succeed" のようなパターンを特定します。これは通常、IPv4 のみの環境で正しく構成されていないスタックを指しています。

手順 4: 保存されているログを確認する

Log Analytics ワークスペースでこの KQL クエリを実行して、DNS エラーパターンを表示します。集計された行は Verdict、名前空間、ワークロード、および Layer7.dns.rcodeを保持するため、このクエリは既定の (集計された) ContainerNetworkLogs テーブルに対して機能します。

ContainerNetworkLogs
| where TimeGenerated between (datetime(<start-time>) .. datetime(<end-time>))
| extend L4 = parse_json(Layer4), L7 = parse_json(Layer7)
| where L4.UDP.destination_port == 53
| where Reply == true
| extend SrcWorkload = tostring(SourceWorkloads[0].name),
         DstWorkload = tostring(DestinationWorkloads[0].name),
         DnsRcode    = tostring(L7.dns.rcode)
| where DnsRcode != "NOERROR"
| summarize ResponseCount = sum(IngressFlowCount + EgressFlowCount + UnknownDirectionFlowCount)
    by SourceNamespace, SrcWorkload, DestinationNamespace, DstWorkload, DnsRcode, Verdict
| order by ResponseCount desc

<start-time>と<end-time>を、2026-04-30T15:00:00Z形式のタイムスタンプに置き換えます。

結果を確認する内容:

評決。 DROPPED は、FQDN またはネットワークポリシーによってクエリがブロックされていることを意味します。 FORWARDED 非NOERRORDnsRcode (たとえば、 NXDOMAIN、 SERVFAIL) は、アップストリームリゾルバーがエラーを返したことを意味します。
移行元/移行先のワークロード。 トラフィックが予想される CoreDNS ワークロードに送信されていることを確認します。
DnsRcode。 DNS 応答コードは、エラーモードを一目で識別します。

注

実際にクエリされたドメイン (Layer7.dns.query) と個々のポッド IP は集計キーの一部でないため、集計された行から削除されます。それらを回復するには、オンデマンドログに切り替えます ( 手順 5 を参照)。

Azure ポータルのAKS クラスター>Insights>Networking>Flow Logsで同じフローを視覚化することもできます。

手順 5: 問題が断続的な場合はライブで再現する

スパイクが既に過ぎ、格納されたログにキャプチャできない場合は、オンデマンドで Hubble CLI を使用します。

hubble observe --namespace <ns> --port 53 --type l7 --follow

手順 6: 修正プログラムを検証する

FQDN ポリシーの更新、アプリケーション構成の修正、または CoreDNS のスケーリングが完了したら、 DNS (ワークロード) ダッシュボードを再度開きます。エラー率は 1 ~ 2 分以内に低下します。 KQL クエリを同じ時間枠で再実行し、失敗したクエリがなくなったことを確認します。

注

Cilium クラスターの DNS メトリックには、Cilium FQDN ネットワークポリシーが必要です。 FQDN ポリシーの構成を参照してください。 Cilium 以外のデータプレーンでは、DNS メトリックが既定で収集されます。

プレイブック 2: パケットドロップを調査する

症状。 サービスは相互に到達できません。プローブは失敗します。接続がタイムアウトしています。破棄カウンターはダッシュボードに表示されます。

目標。 ドロップの原因が、ネットワークポリシー、接続追跡の枯渇、アップストリーム接続の問題のいずれであるか、およびどのワークロードが原因であるかを特定します。

手順 1: 名前空間レベルでドロップを見つける

ポッドフロー (名前空間) を開きます。ヒートマップにより、発信および受信ドロップ率が最も高い名前空間とポッドが表示されます。

明るいセルは、ドロップ率が高いことを示します。名前空間と時間枠をメモします。

手順 2: 影響を受ける作業負荷を詳細に調査する

ドロップ (ワークロード) を開き、特定したワークロードを選択します。

ワークロードスナップショット には、最大/最小の送信ドロップがパケット数/秒で表示されます。重要度を測定するために使用します。
理由別のトラフィックのドロップが最も重要なパネルです。その理由は、修正する内容を示しています。
- ポリシーが拒否されました 。 NetworkPolicy または CiliumNetworkPolicy がトラフィックをブロックしています。
- CT: マップの挿入に失敗しました — 接続追跡テーブルがいっぱいです。ノードをスケーリングするか、接続のチャーンを減らします。
- サポートされていない L3 プロトコル/無効なパケット — アプリケーションまたはプロキシが形式の正しくないトラフィックを送信しています。
受信/送信ドロップのヒートマップ。 トラフィックを失っている特定のポッドペアを識別します。
ソースポッド別の積み上げ合計ドロップ数。 最初に確認するレプリカを把握できるように、違反者をランク付けします。

手順 3: 保存されたログ内の削除されたフローを確認する

ドロップされたトラフィックの正確な送信元と宛先のワークロードを見つけます。 Verdict、 DropReason、名前空間、ワークロードはすべて集計キーに含まれるため、このクエリは集計データに対して機能します。

ContainerNetworkLogs
| where TimeGenerated between (datetime(<start-time>) .. datetime(<end-time>))
| where Verdict == "DROPPED"
| extend SrcWorkload = tostring(SourceWorkloads[0].name),
         DstWorkload = tostring(DestinationWorkloads[0].name)
| summarize DropCount = sum(IngressFlowCount + EgressFlowCount + UnknownDirectionFlowCount)
    by SourceNamespace, SrcWorkload, DestinationNamespace, DstWorkload, DropReason, bin(TimeGenerated, 5m)
| order by TimeGenerated desc, DropCount desc

特定した名前空間を 1 つに絞り込みます:

ContainerNetworkLogs
| where TimeGenerated between (datetime(<start-time>) .. datetime(<end-time>))
| where Verdict == "DROPPED"
| where SourceNamespace == "<namespace-name>"
| extend SrcWorkload = tostring(SourceWorkloads[0].name),
         DstWorkload = tostring(DestinationWorkloads[0].name)
| summarize DropCount = sum(IngressFlowCount + EgressFlowCount + UnknownDirectionFlowCount)
    by SrcWorkload, DestinationNamespace, DstWorkload, DropReason, TrafficDirection
| order by DropCount desc

Azure ポータルの Flow Logs ダッシュボードには、ブロックされたパスを強調表示するサービス依存関係グラフなど、同じデータが視覚的に表示されます。

手順 4: ポリシーとのクロスチェック

ソースポッドと宛先ポッドがわかったら、次のようにします。

kubectl get netpol,cnp -A
kubectl describe cnp -n <namespace> <policy-name>

失敗したフローをイングレス/エグレスルールと照合します。最も一般的な原因は、正当なパスの許可ルールを含まないまま追加されたデフォルト拒否ポリシーです。

手順 5: 修正プログラムを検証する

ポリシーを調整した後、 Dropped Traffic by Reason グラフは ポリシー拒否の場合はフラットになります。 KQL クエリを再実行します。 DROPPED 、そのソースと宛先のペアの判定が表示されなくなります。

Tip

アクティブなインシデントを調査していて、保存されたログが有効になっていない場合は、クラスター構成を変更せずに、 hubble observe --verdict DROPPED --namespace <ns> を実行してライブドロップをストリーミングします。

プレイブック 3: トラフィックの不均衡とホットポッドを見つける

症状。 デプロイのいくつかのポッドで CPU またはネットワークが飽和しているのに対し、他のポッドはアイドル状態です。 TCP リセットが上昇します。待機時間レポートはユーザーから取得されます (待機時間自体は ACNS メトリックでは表示されません。 Mental モデルのメモを参照してください)。

目標。 どのポッドが不均衡なトラフィックを運んでいるか、リセットがオーバーロードまたは正しく構成されていない負荷分散を示しているかどうかを特定します。

手順 1: ポッドレベルのトラフィックを比較する

ポッドフロー (ワークロード) を開きます。 ワークロードスナップショットは、送信/受信トラフィックとドロップを要約します。

[トレースタイプ別トラフィック] パネルには、時間の経過に伴うトラフィックの傾向が表示されます。多くの場合、発信ボリュームと受信ボリュームの間の広いギャップは、ダウンストリームのボトルネックを指しています。

手順 2: ヒートマップを使用してホットポッドをスポットする

ポッドレベルのヒートマップにより、不均衡が明らかになります。 1 つのポッド (たとえば、 default/tcp-client-0) が、レプリカよりもはるかに暗いセルを持つ発信ヒートマップと着信ヒートマップの両方に表示される場合、トラフィックはそこに集中します。

一般的な原因:

サービス sessionAffinity: ClientIP クライアントを 1 つのポッドにピン留めします。
固定 DNS 解決を使用したヘッドレスサービス。
外部ロードバランサーがカーディナリティの低いフィールドでハッシュを行う。

手順 3: TCP リセットを飽和信号として使用する

TCP リセットメトリック パネルを開きます。

ソースポッドごとの送信 TCP RST のヒートマップ。 また、RTS を生成するホットソースポッドが過負荷になり、アプリケーションは積極的に接続を閉じています。
宛先ポッド別の受信 TCP RST のヒートマップ。 多くのソースから RST を受信するポッドは、通常、新しい接続を迅速に受け入れることができないことを意味します（バックログが満杯、リスナーが遅い）。
ソース/宛先ごとの積み上げ合計RST。 時間の経過に伴う傾向は、リセットがインシデントか新しい安定状態かを示します。

手順 4: ログで確認する

フローボリュームの合計で最も負荷の高いワークロードを特定します。基になるフローではなく、集計された行のみをカウントする count()ではなく、集計されたフローカウント列を使用します。

ContainerNetworkLogs
| where TimeGenerated between (datetime(<start-time>) .. datetime(<end-time>))
| extend SrcWorkload = tostring(SourceWorkloads[0].name)
| summarize TotalFlows = sum(IngressFlowCount + EgressFlowCount + UnknownDirectionFlowCount)
    by SourceNamespace, SrcWorkload
| top 10 by TotalFlows desc

注

パケットごとの TCP フラグ ( RST など) は集計キーの一部でないため、 ContainerNetworkLogsの集計行から削除されます。フローレベルで TCP リセットを調査するには、上記の TCP リセット ダッシュボードと オンデマンドログ パス ( hubble observe --type trace --verdict FORWARDED --tcp-flags RSTを使用してライブ RST フローをストリーミング) を使用します。

手順 5: 修正プログラムを検証する

ワークロードのスケーリング、サービスの再調整、またはアフィニティルールの修正後、ヒートマップは、より多くのポッド間で均等に明るくなり、TCP RST レートが低下します。

プレイブック 4: クラスター全体のネットワーク正常性を監視する

これは、フリートビューが必要な場合に使用します。例えば、容量計画、通話中のダッシュボード、または多くのクラスターでの迅速な正常性チェックなどです。

Kubernetes/Networking/Clusters を開きます。

監視するシグナルとその意味:

パネル	確認対象	考えられる原因
転送されたバイト数/パケット数	突然の崖や急上昇	ボトルネックまたはワークロードの再起動
破棄されたバイト数/パケット数 (クラスター)	持続的な登り	ポリシー回帰または飽和リンク
理由によって破棄されたバイト数/パケット数	新しい理由が表示される	新しい構成ミスまたはカーネルレベルの問題
ノードによって破棄されたバイト数/パケット数	1 つのノードが支配している	ノードローカルハードウェア、正しく構成されていない、またはノイズの多い近隣ノード
TCP 接続状態の分散	過剰な `SYN_SENT` または `TIME_WAIT`	有効期間が短い接続による接続エラーまたはソケットの切り替え頻度

このダッシュボードの内容が間違っている場合は、一致するプレイブック (DNS の場合はプレイブック 1、ドロップの場合はプレイブック 2、ホットポッドの場合はプレイブック 3) にジャンプします。

プレイブック 5: アプリケーション層 (L7) エラーを診断する

症状。 HTTP 4xx/5xx エラー率が上昇します。 gRPC 呼び出しは失敗します。 Kafka コンシューマーのラグ。 L7 ポリシーの適用が有効で、L7 ルールを含むCiliumNetworkPolicyがある Cilium クラスターで使用できます。「レイヤー 7 ポリシーの構成」を参照してください。

目標。 L7 エラーが、正しく構成されていないクライアント、サーバー側の障害、または拒否されたフローから発生しているかどうかを特定します。

注

L7 強制では、クラスターを作成するか、 --acns-advanced-networkpolicies L7で更新する必要があります。 L7設定では、FQDN フィルター処理も有効になります。 L7 ルールは CiliumClusterwideNetworkPolicy (CCNP) ではサポートされておらず、L7 トラフィックは Envoy プロキシを経由して流れます。これにより、ノードあたり 1 秒あたり最大 3,000 要求を超える待機時間が追加される可能性があります。 L7 ポリシーに関する考慮事項を参照してください。

手順 1: L7 ダッシュボードを開く

1 つのサービスには Kubernetes/Networking/ L7 (ワークロード) を使用し、テナント全体には L7 (名前空間) を使用します。

手順 2: 破棄された HTTP トラフィックと転送された HTTP トラフィックを分離する

判定パネルは、HTTP トラフィックを転送されたフローとドロップされたフローに分割します。 HTTP のドロップが急増している場合、通常、CiliumNetworkPolicy によって L7 で要求が拒否されていることが多いことを示しています (たとえば、パスやメソッドのブロック)。

手順 3: 時間の経過と同時に状態コードを追跡する

状態コードパネルには、エラーがクライアント側かサーバー側かを示します。 4xx の急増は、不適切な入力、期限切れのトークン、または拒否されたパスを指しています。バックエンドの障害時に 5xx ポイントの急増。

手順 4: 問題のあるポッドを見つける

4xx ヒートマップは、最も失敗した要求を生成しているソースポッドを示しています。 1 つのポッドが明るく光るということは、通常、クライアントの再試行ループがスタックしているか、レプリカが正しく構成されていないことを意味します。

ドロップされたリクエストのヒートマップと共に、HTTP リクエストのボリュームごとの上位ソースポッドのスクリーンショット。

手順 5: KQL で確認する

状態コード別に分類された HTTP トラフィックをプルします。 Layer7.http.code は集計キーの一部であるため、これは集計された行に対して機能します。

ContainerNetworkLogs
| where TimeGenerated between (datetime(<start-time>) .. datetime(<end-time>))
| extend L7 = parse_json(Layer7)
| where isnotnull(L7.http)
| extend StatusCode  = tostring(L7.http.code),
         SrcWorkload = tostring(SourceWorkloads[0].name),
         DstWorkload = tostring(DestinationWorkloads[0].name)
| where StatusCode startswith "4" or StatusCode startswith "5"
| summarize ErrorFlows = sum(IngressFlowCount + EgressFlowCount + UnknownDirectionFlowCount),
            UniqueCodes = dcount(StatusCode)
    by SrcWorkload, DstWorkload, StatusCode
| order by ErrorFlows desc

gRPC と Kafka の場合、 Layer7 はプロトコル固有のペイロードを保持しますが、集計キーは http.code と dns.rcode のみです。 Verdictとワークロード ID をフィルター処理し、gRPC メソッドまたは Kafka トピックが必要な場合はオンデマンドログを使用します。

ContainerNetworkLogs
| where TimeGenerated between (datetime(<start-time>) .. datetime(<end-time>))
| where FlowType == "L7"
| extend SrcWorkload = tostring(SourceWorkloads[0].name),
         DstWorkload = tostring(DestinationWorkloads[0].name)
| where Verdict == "DROPPED"
| summarize DroppedFlows = sum(IngressFlowCount + EgressFlowCount + UnknownDirectionFlowCount)
    by SrcWorkload, DstWorkload
| order by DroppedFlows desc

注

きめ細かい L7 属性 (HTTP URL、gRPC メソッド、Kafka トピック、DNS クエリ名) は集計キーに含まれていないので、集計行から削除されます。その詳細レベルには、オンデマンドの Hubble フローを使用します。

L7 RCA 中に注目する内容

トラフィックの量と形状。 ヒートマップを使用して不均衡を見つける。多くの場合、1 つのホットレプリカでエラー率が説明されます。
状態コードの傾向。 4xx と 5xx は、調査をクライアント側またはサーバー側に絞り込みます。
評決。削除 L7 フローは、L7 ポリシーが要求を拒否することを意味します。ポリシーを読み取り、意図を確認します。

機能の詳細分析 (状況に応じて何を使用するかの判断)

プレイブックがわかったら、このセクションをクイックリファレンスとして使用します。

コンテナーネットワークメトリック

使用対象: 異常検出、ダッシュボード、アラート、容量計画。
スキップの理由: どのポッドか、どのパスか、どの判定かといった、ID が必要な根本原因。
粒度: すべてのデータプレーンのノードレベル。Linux 上のポッドレベル。
コスト重視のワークロード: Cilium クラスターにメトリックフィルターを適用して、関心のある名前空間、ラベル、メトリックの種類のみを保持します。フィルター処理はスクレーピングの前に行われるため、不要なシリーズが Prometheus に到達することはありません。

コンテナーネットワークログ (保存)

使用対象: 根本原因分析、履歴傾向、コンプライアンス/監査。
データプレーン:Cilium のみ。 保存されたログは、Cilium 以外のクラスターでは使用できません。
必須の手順: 必要なトラフィックを選択する ContainerNetworkLog CRD を定義します。それなしでは、ログは収集されません。コンテナーネットワークログの設定を参照してください。
ログが格納される場所: 既定では、Cilium はフローレコードを各ノード (50 MB 回転バッファー) 上の /var/log/acns/hubble/events.log に書き込みます。そこから、次の 2 つのストレージパスがあります。
- Azure Log Analytics (マネージド、推奨) - Container Insights は、KQL クエリと組み込みのAzure ポータルダッシュボードのContainerNetworkLogs テーブルにログを発送します。
- 独自のコレクター — OpenTelemetry と互換性のあるエージェント (Splunk、Datadog、Elastic、任意の OTel コレクター) をホストのログパスに向けて設定し、Log Analytics の代わりに、またはそれを併用して、既存の監視スタックへフローを転送します。
コスト管理: フローログの集約では、30秒間のウィンドウ内で同様のフローがまとめられるため、ボリュームを低下させながらもパターンが保持されます。最良の結果を得るには、狭い includeFilters と組み合わせます。
可視化:フローログ - アナリティクスティアのダッシュボードまたはフローログ - ベーシックティアのダッシュボードを使用し、Azure>Insights>Containers>Networkingで確認します。

コンテナーネットワークログ (オンデマンド)

使用対象: ライブインシデント、断続的な問題、収集構成を変更しないアドホック調査。
データプレーン:Cilium のみ。
ツール： ターミナルフィルタリング用の Hubble CLI。視覚的なサービス間マップ用の Hubble UI。
永続的ストレージなし、追加コストなし、ACNS を有効にした以外のセットアップはありません。

メトリックのフィルター処理 (Cilium クラスター)

ContainerNetworkMetric CRD を適用して、ノードごとにエクスポートする Hubble メトリックを制御します。いくつかの重要な名前空間で広範な可観測性を必要とするが、それらのすべてに対して高カーディナリティフローシリーズの料金を支払いたくない場合に便利です。

一般的なパターン:

DNS を保持し、メトリックをクラスター全体にドロップする。フローメトリックを運用環境の名前空間に制限します。
フローメトリックから、 kube-system などの大量のシステム名前空間を除外します。
テナントごとの名前空間を独自のフィルターブロックにスコープします。

完全な CRD の例については、「コンテナーネットワークメトリックのフィルター処理の構成」を参照してください。

ベストプラクティス

開始範囲を広くし、狭くします。 数日間の広範なログ/メトリックを有効にし、実際に使用するものを確認してから、 ContainerNetworkLog と ContainerNetworkMetric フィルターを強化します。
メトリックとログの時間枠を揃えておきます。 インシデントを調査する場合は、ダッシュボードと KQL クエリ全体で同じ開始時刻/終了時刻を使用して、シグナルが正確に関連付けられるようにします。
事前に構築されたダッシュボードを使用します。 最も一般的な質問について説明します。カスタムパネルは通常、最初のトリアージを過ぎた後にのみ必要です。
必要に応 ContainerNetworkLogs 階層化します。 コスト重視のワークロードの Basic レベルに切り替えます。一致する Basic レベルのダッシュボードを使用します。 Log Analytics テーブルプランの詳細をご覧ください。
集計されたログとオンデマンドログを補完として扱います。 集計されたログは傾向とパターンの検出に適していますが、フローごとの詳細はスキップされます。詳細な検査にはオンデマンド (Hubble) を使用します。
問題が発生したのと同じパネルで修正プログラムを検証します。 変更後に同じパネルがフラットになった場合は、実際の修正があります。

よくある落とし穴

ContainerNetworkLog CRD のことを忘れないようにする。 クラスターでコンテナーネットワークログを有効にしても、トラフィックを選択する CRD を少なくとも 1 つ適用するまで、何も収集されません。
保存されたログをすでに発生したインシデントに使用しようとしています。 インシデントの前にログが有効になっていない場合、またはキャプチャされたフィルターの外側に落ちた場合は、次の発生のためにオンデマンドの Hubble フローに切り替えます。
Cilium クラスター上の L7 ダッシュボードが空です。 L7 メトリックには、クラスターでの--acns-advanced-networkpolicies L7と、L7 規則を使用したCiliumNetworkPolicyの両方が必要です。 CCNP は L7 ルールをサポートしていません。 L7 ポリシーの適用を参照してください。
Cilium の DNS メトリックが空です。 DNS の可視化には、CiliumNetworkPolicy に dns を設定する必要があります (通常は、toFQDNs と併用します)。 FQDN/DNS プロキシは ノードローカル DNS または AKS ローカル DNS と互換性がありません — いずれかを実行すると、DNS プロキシングとそれに伴うメトリックが無効になります。 FQDN フィルタリングの制限事項を参照してください。
matchPattern: "*" は、すべての DNS をブロックします。 単独のワイルドカードはサポートされていません。 *.example.comやapp*.example.comなどの先頭ワイルドカードパターンを使用します。 FQDN フィルタリングポリシーの適用を参照してください。

Azure の監視に含まれるネットワーク監視機能

AKS クラスターで Prometheus についての Azure Monitor マネージドサービスを有効にすると、基本的なノードネットワーク監視メトリックは、既定で networkobservabilityRetina ターゲットを介し収集されます。これにより、次が提供されます。

基本的ノードレベルのネットワークメトリック: ノードレベルでの基本的ネットワークトラフィックの可視性
既定の Prometheus ターゲット: Azure Monitor によって自動的にスクレイピングされたネットワーク監視メトリック
Azure Monitor の統合: Azure Monitor とのシームレスな統合では、メトリックが自動的に収集され、Grafana で視覚化されます
追加のセットアップは必要なし: Azure Monitor マネージドの Prometheus が構成されていれば自動的に有効になります
Microsoft サポート: Azure Monitor と AKS の一部としてサポートされます

注: これには、AKS クラスターで Prometheus 用の Azure Monitor マネージドサービスを有効にする必要があり、関連コストが発生する場合があります。

使用開始: Azure portal または CLI を介し、AKS クラスターで Prometheus の Azure Monitor マネージドサービスを有効にします。ネットワーク監視メトリックは自動的に収集され、Azure Managed Grafana での視覚化に使用できます。

Retina OSS を使用したネットワークの監視

アドバンストコンテナーネットワークサービス (ACNS) は、包括的なネットワーク監視機能を提供する有料オファリングですが、Microsoft では、重要なネットワーク監視機能を提供するオープンソースのネットワーク監視プラットフォームである、Retina OSS を使用したネットワーク監視もサポートしています。

Retina OSS はオープンソースの監視プラットフォームで、retina.sh および GitHub で利用が可能です。共有サービスには次のものが含まれています。

eBPF ベースのネットワーク可観測性: eBPF テクノロジを使用して、最小限のオーバーヘッドで分析情報を収集します
Kubernetes コンテキストを使用した詳細なトラフィック分析: 完全な Kubernetes 統合を使用した、ネットワークトラフィックフローの包括的なキャプチャと分析
高度なメトリック収集: レイヤー 4 のメトリック、DNS メトリック、および分散パケットキャプチャ機能
プラグインベースの拡張性: プラグインアーキテクチャを使用して機能をカスタマイズおよび拡張します
Prometheus 互換のメトリック: 構成可能なメトリックモードを含む Prometheus 形式で、包括的なネットワークメトリックをエクスポートします
分散パケットキャプチャ: 詳細なトラブルシューティングを行う複数のノードにわたるオンデマンドパケットキャプチャ
プラットフォームと CNI への依存なし: 任意の Kubernetes クラスター (AKS、Arc 対応、オンプレミス)、任意の OS (Linux/Windows)、および任意の CNI で動作します
コミュニティサポート: コミュニティ主導のサポートとコントリビューションがあるオープンソース
セルフマネージド: デプロイと構成を完全に制御します
Hubble 統合: Cilium の Hubble と統合して、追加のネットワーク分析情報を獲得します

使用開始: 公式の Retina リポジトリから、Helm チャートまたは Kubernetes マニフェストを使用して、Retina OSS をデプロイします。 Prometheus と Grafana を設定してメトリックを視覚化し、Kubernetes コンテキストを使用して詳細なトラフィック分析を構成し、高度なトラブルシューティングのための分散パケットキャプチャを有効にし、特定のユースケースに対しては、プラグインベースのアーキテクチャを使用して機能をカスタマイズします。

ネットワーク監視機能の比較

サービス	Support	費用	管理	デプロイメント	例
Advanced Container Networking Services (ACNS)	Microsoft エンタープライズサポート	有料の Azure サービス	Microsoft によって完全に管理されています	ワンクリックの Azure 統合	マネージドエンタープライズ監視: ポッドレベルのネットワークフロー、ポッドレベルのメトリック、DNS メトリック、長期保存ログ、レイヤー 7 トラフィック分析、ネットワークセキュリティポリシーの実施、コンプライアンスレポート、高度な Grafana ダッシュボード、AI 搭載の分析情報
ネットワーク監視 (Azure Monitor)	Azure Monitor の一部としての Microsoft サポート	Azure Monitor マネージド Prometheus に包含 (Azure Monitor のコストが適用されます)	Microsoft によって完全に管理されています	Azure Monitor マネージド Prometheus が有効になっている場合は自動で動作します	ノードネットワーク監視: クラスターとノードレベルのネットワークメトリックのみで、ポッドレベルの可視性なし、保存ログなし、DNS 分析なし - 追加の構成なしで、基本的なインフラストラクチャの監視と最小限のネットワーク監視を必要とするユーザーに適しています
Retina OSS	コミュニティサポート	無料でオープンソース	自己管理型	任意の Kubernetes クラスター上での Helm/manifests を通じた手動セットアップ	アンマネージド高度な可観測性: リアルタイムパケットキャプチャ、カスタムメトリック収集、eBPF ベースのディープネットワーク分析、Hubble 統合、マルチクラウドデプロイ、カスタム監視パイプライン、tcpdump/Wireshark 統合による高度なデバッグ、開発/テスト環境

詳細情報

アドバンストコンテナーネットワークサービス (ACNS)

プラットフォームの概要:AKS 用の Advanced Container Networking Services とは
可観測性を設定する:コンテナーネットワークの可観測性を設定する
コンテナーネットワークメトリック:コンテナーネットワークメトリックの概要
コンテナーネットワークログ:コンテナーネットワークログの概要とコンテナーネットワークログの設定
メトリックのフィルター処理 (Cilium):コンテナーネットワークメトリックのフィルター処理を構成する

AI 駆動型診断

Container Network Insights エージェント (プレビュー):エージェントの概要と設定
AKS MCP サーバー:AKS モデルコンテキストプロトコルサーバー

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-05-01

Advanced Container Networking Services に関する AKS ネットワークの問題を診断して解決する

このガイドが解決に役立つ内容

メンタル モデル: メトリック、ログ、フィルター処理がどのように連携するか

標準のトラブルシューティング フロー

標準ダッシュボードを一目で見る

プレイブック 1: DNS 解決エラーを診断する

手順 1: DNS メトリックの異常を確認する

手順 2: 最も騒々しいポッドを識別する

手順 3: 影響を受けるワークロードの詳細を調べる

手順 4: 保存されているログを確認する

手順 5: 問題が断続的な場合はライブで再現する

手順 6: 修正プログラムを検証する

プレイブック 2: パケット ドロップを調査する

手順 1: 名前空間レベルでドロップを見つける

手順 2: 影響を受ける作業負荷を詳細に調査する

手順 3: 保存されたログ内の削除されたフローを確認する

手順 4: ポリシーとのクロスチェック

手順 5: 修正プログラムを検証する

プレイブック 3: トラフィックの不均衡とホット ポッドを見つける

手順 1: ポッド レベルのトラフィックを比較する

手順 2: ヒートマップを使用してホット ポッドをスポットする

手順 3: TCP リセットを飽和信号として使用する

手順 4: ログで確認する

手順 5: 修正プログラムを検証する

プレイブック 4: クラスター全体のネットワーク正常性を監視する

プレイブック 5: アプリケーション 層 (L7) エラーを診断する

手順 1: L7 ダッシュボードを開く

手順 2: 破棄された HTTP トラフィックと転送された HTTP トラフィックを分離する

手順 3: 時間の経過と同時に状態コードを追跡する

手順 4: 問題のあるポッドを見つける

手順 5: KQL で確認する

L7 RCA 中に注目する内容

機能の詳細分析 (状況に応じて何を使用するかの判断)

コンテナー ネットワーク メトリック

コンテナー ネットワーク ログ (保存)

コンテナー ネットワーク ログ (オンデマンド)

メトリックのフィルター処理 (Cilium クラスター)

ベスト プラクティス

よくある落とし穴

Azure の監視に含まれるネットワーク監視機能

Retina OSS を使用したネットワークの監視

ネットワーク監視機能の比較

詳細情報

アドバンスト コンテナー ネットワーク サービス (ACNS)

AI 駆動型診断

コンテナネットワークセキュリティ（Cilium）

データ プレーンとプラットフォーム

オープン ソース ツール

フィードバック

その他のリソース

メンタルモデル: メトリック、ログ、フィルター処理がどのように連携するか

標準のトラブルシューティングフロー

プレイブック 2: パケットドロップを調査する

プレイブック 3: トラフィックの不均衡とホットポッドを見つける

手順 1: ポッドレベルのトラフィックを比較する

手順 2: ヒートマップを使用してホットポッドをスポットする

プレイブック 5: アプリケーション層 (L7) エラーを診断する

コンテナーネットワークメトリック

コンテナーネットワークログ (保存)

コンテナーネットワークログ (オンデマンド)

ベストプラクティス

アドバンストコンテナーネットワークサービス (ACNS)

データプレーンとプラットフォーム

オープンソースツール