AI セキュリティの基本的な概念
AI セキュリティは、人工知能の固有の特性を利用する脅威から、モデル、トレーニング データ、推論パイプライン、AI 対応アプリケーションなどの AI システムを保護する手法です。 従来のサイバーセキュリティはコンピューター システム、ネットワーク、データの保護に重点を置いていますが、AI セキュリティはこれらの目標を拡張して、AI システムが出力を学習、推論、生成する方法に固有のリスクに対処します。 AI セキュリティ空間で働くセキュリティプロフェッショナルは、AI 対応アプリケーション内の資産、データ、情報を保護するコントロールを設計して実装する必要があります。
AI セキュリティと従来のサイバーセキュリティの違い
AI セキュリティは、AI システムが学習して出力を生成する方法により、従来のサイバーセキュリティとは異なります。 同じ入力を与えられた場合でも、生成 AI モデルの出力は常に同じとは限りません。 従来のコントロールでは、同じ入力が毎回同じ出力を生成することを前提とすることが多いため、この非決定的な動作は、セキュリティ コントロールを設計する際に課題を引き起こします。
生成型 AI を有用にする自然言語インターフェイスも、攻撃対象領域を拡大します。 UI 要素または API への入力の制約は、従来のアプリケーションでは十分に理解されているセキュリティ制御ですが、AI システムのコア値を損なうことなく、同じ方法で自然言語インターフェイスを制限することはできません。
AI セキュリティに固有のその他の考慮事項は次のとおりですが、この限りではありません。
- AI モデルの整合性
- トレーニング データの整合性
- 責任ある AI (RAI) に関する懸念事項
- 敵対的 AI 攻撃
- AI モデルの盗難
- AI への過度の依存
- 生成 AI の非決定的 (創造的) な性質
AI セキュリティの最大の課題の 1 つは、この分野が急速に発展していることです。 新しいモデル機能、新しい統合パターン (ツール アクセスを持つ AI エージェントなど)、新しい攻撃手法が定期的に出現します。 このペースにより、セキュリティの専門家がテクノロジの範囲と機能を最新の状態に保ち、適切なセキュリティ制御を行うのが困難になります。
責任ある AI がサイバーセキュリティにとって重要な理由
責任ある人工知能 (責任ある AI) とは、安全で信頼できる倫理的な方法で AI システムを開発、評価、デプロイするためのアプローチです。 AI システムは、それらを開発してデプロイするユーザーによる多くの決定に基づいて構築されます。 システムの目的から AI システムとの対話方法まで、責任ある AI は、より有益で公平な結果に向けて、これらの決定を積極的に導くために役立ちます。 つまり、人とその目標をシステム設計の決定の中心に保ち、公平性、信頼性、透明性などの永続的な価値を尊重することを意味します。
主要な責任ある AI フレームワークは、AI システムを構築するための共通の原則 (公平性、信頼性と安全性、プライバシーとセキュリティ、包括性、透明性、アカウンタビリティ) を共有します。 これらの原則は、AI に対する責任ある信頼できるアプローチの基礎となります。
AI の害は、サイバーセキュリティ、プライバシー、倫理にまたがる可能性のある AI システムに固有の問題です。 AI は、従来は分離されたこれらのドメイン間の線をぼかします。 セキュリティ担当者は、セキュリティで保護された責任ある AI システムを作成するために、責任ある AI を総合的に理解することが重要です。
セキュリティ固有の AI の害の例:
- 未承認のデータ アクセスまたは推論によるプライバシー違反
- 重要な意思決定のための AI への過度の過剰な依存
その他の AI の害の例:
- ポリシーに違反するコンテンツ (有害、攻撃的、または激しいコンテンツなど) を作成する
- モデルの危険な機能へのアクセスの提供 (たとえば、犯罪行為に対する実行可能な指示の生成)
- 意思決定システムの転覆(攻撃者によって制御された決定を生成するようにローン申請や雇用システムを操作すること)
- 組織の評判を損なうニュースに値する有害な出力をシステムに生成させる
- IP 侵害
AI セキュリティ フレームワークと脅威分類
セキュリティの専門家は、業界標準のフレームワークを使用して、AI のセキュリティ リスクを分類して伝達します。 広く採用されているフレームワークは次のとおりです。
- OWASP Top 10 for LLM Applications: Open Worldwide Application Security Project (OWASP) は、大規模な言語モデル アプリケーションに固有の最も重要なセキュリティ リスクのランク付けされた一覧を保持します。 カテゴリには、プロンプトインジェクション、安全でない出力処理、トレーニング データポイズニング、モデル盗難など、このモジュールで説明するのと同じ種類の攻撃が含まれます。 主要なクラウド セキュリティ ベンチマークは、AI 固有の脅威に関するトレーニングを行うときに、セキュリティ チームにこのフレームワークの使用を明示的に指示するようになりました。
- MITRE ATLAS (Artificial-Intelligence システムの敵対的脅威ランドスケープ):AI システムに対して観察される敵対的戦術と手法のナレッジ ベースであり、セキュリティプロフェッショナルが従来のシステムに既に使用している MITRE ATT&CK フレームワークと同様に構成されています。 MITRE ATLAS は、テスト シナリオの設計時に AI レッド チームが参照する攻撃 ID と手法の説明を提供します。
- NIST AI リスク管理フレームワーク (AI RMF): 米国標準技術研究所によって発行されたこのフレームワークは、AI ライフサイクル全体のリスクを管理するためのガイダンスを提供します。 ガバナンス、透明性、継続的なテストと監視が重視されます。
- ISO/IEC 42001: セキュリティ制御を含む AI ガバナンスを確立、実装、改善するための要件を提供する AI 管理システムの国際標準。
これらのフレームワークは相互に補完します。 セキュリティ チームは、多くの場合、それらを組み合わせて使用します。たとえば、OWASP を使用してアプリケーション リスクの優先順位を付け、MITRE ATLAS を使用して敵対的な行動をモデル化し、組織のガバナンスのために NIST AI RMF または ISO 42001 を使用します。
次のユニットで学習する攻撃手法 (脱獄、プロンプトインジェクション、モデル操作、データ流出など) はすべて、OWASP と ATLAS の両方のエントリにマップされます。 AI セキュリティの知識を構築するときに、これらの分類を使用すると、同僚やコンプライアンス チームが認識する観点からリスクを伝えるのに役立ちます。 これらの各フレームワークへのリンクは、このモジュールの概要ユニットのリソース セクションにあります。