AI レッド チーミングとは何ですか?

完了

レッド チーミングとは、情報セキュリティ業界において、体系的な敵対攻撃を使用してセキュリティの脆弱性をテストするプロセスを表すために使用されている用語です。 レッド チーミングは、組織のシステムのセキュリティを強化するために実行されます。 レッド チーミングは、悪意のある第三者による不正な攻撃とは異なります。

大規模言語モデル (LLM) をアプリケーション エコシステムに導入するには、AI システムの調査、テスト、および攻撃に対して敵対的手法を含めるようにレッド チームに求める必要があります。 AI 対応アプリケーションの使用が敵対的な場合、さらには無害である場合にすら、潜在的に有害な出力が生成される可能性があります。 たとえば、企業のソーシャル メディア チャットボットが破損したことで、ヘイトスピーチが生成されたり、暴力が賛美されたりすることがあります。 敵対的な使用の場合は、AI アプリケーションからプライベート データが出力されたり、攻撃が作成されたりする可能性があるほか、他のダウンストリーム セキュリティに悪影響を及ぼす可能性もあります。

次の図は、LLM がアプリケーション エコシステムに導入されて以来、レッド チーミングに関して生じた範囲の拡大の概要を示したものです。

レッドチーム活動をAI対応アプリケーションに拡張することを示す図。

AI レッド チーミングは、一般的な LLM に対するレッド チーム攻撃などの基本 LLM レベル、または AI 対応アプリケーションがバックエンド インフラストラクチャの一部として LLM を使用するアプリケーション レベルの 2 つのレベルで行われます。 この 2 つのレイヤーのアプローチを使用すると、次のような結果が得られます。

AI レッド チーミングの 2 つのレベルを示す図:ベース LLM プローブとアプリケーション レベルのプローブ。

  • モデルに対してレッド チーミングを実行することは、モデルが誤用される可能性をプロセスの早い段階で特定したり、モデルの機能の範囲を定めたり、モデルの制限を理解したりするのに役立ちます。 これらの分析情報は、モデルの開発プロセスに取り込むことができ、将来のモデル バージョンを強化するのに役立ちます。
  • アプリケーション レベルのレッド チーミングでは、システム全体のアプローチを採用しており、ベース LLM はその一部です。 たとえば、AI を利用した検索アシスタントに対して AI レッド チーミングを実行する場合は、より広範な検索エクスペリエンスと共に、基になる LLM をプローブする必要があります。 システム全体のアプローチを採用すると、全体的なアプリケーション固有の安全トリガーを含めることで、モデル レベルの安全メカニズムだけでは及ばない、障害の特定を容易に行うことができます。

成熟した AI プラクティスを持つ組織は、LLM、AI 対応アプリケーション、サービスに対してこれらの敵対的なテストを実行する専用の AI Red Teams を実行します。 これらのチームは、次の内容を学習しました。

  • AI のレッドチーミングは、従来のレッドチーミングよりも範囲が広い
  • AI レッド チーミングは、悪意のあるペルソナ、および無害なペルソナに起因する失敗に重点を置いている
  • 生成 AI システムに対するレッド チーミングでは、同じテストを複数回試行する必要がある
  • AI システムは絶えず進化している
  • AI の障害を軽減するには多層防御が必要である

AI レッド チーミングは、従来のレッド チーミングよりも広範囲にわたる

AI レッド チーミングは、セキュリティおよび責任ある AI (安全性) の結果を両方とも調査することを表す総称になりました。 AI レッド チーミングは、従来のレッド チーミングと目標は重なりますが、攻撃ベクトルとして LLM を含んでいます。 AI レッド チーミングでは、プロンプト インジェクションやモデル ポイズニングなど、新しい種類のセキュリティ脆弱性に対する防御をチェックします。 AI レッド チーミングでは、公平性の問題や有害なコンテンツなど、組織の評判を損なう可能性のある結果が出力されていないかについても調査が行われます。 LLM または AI 対応ワークロードを公開する前に AI レッド チーミングを実行することで、組織は問題を特定し、防御投資に優先順位を付けることができます。

AI レッド チーミングは、悪意のあるペルソナ、および無害なペルソナに起因する失敗に重点を置いている

悪意のある敵対者のみに焦点を当てた従来のセキュリティ レッド チーミングとは異なり、AI レッド チーミングでは、より広範なペルソナおよび障害を考慮します。 AI レッド チームは、AI を利用した検索およびアシスタント製品に対する敵対的なテストから重要な教訓を学びました。 AI 対応検索エンジンをテストする場合、AI レッド チーミングでは、悪意のある敵対者がセキュリティに重点を置いた手法によって AI システムを破壊する方法に焦点を当てています。 また、通常のユーザーが操作するときに、システムが問題のある有害なコンテンツを生成する方法についても説明します。 これは重要なのは、問題のあるコンテンツを生成する主力の AI 製品が、組織にとって重大な評判の害を引き起こす可能性があるためです。

生成 AI システムのレッド チーミングでは、同じテストを複数回試行する必要がある

従来のレッド チーミング エンゲージメントでは、同じ入力に対して 2 つの異なる時点でツールまたは手法を使用すると、常に同じ出力が生成されます。 これは確定的な出力と呼ばれます。 生成 AI システムは確率論的であるため、同じ入力を 2 回実行すると、異なる出力が提供される可能性があります。

常に同じ出力を生成する確定的な従来のシステムと、さまざまな出力を生成する確率論的な生成 AI システムを比較する図。 生成型 AI の確率論的性質により、クリエイティブな出力の範囲が広がります。 このことは、レッド チーミングにとって課題となります。同じテスト プロンプトを使用した場合に、ある試行で成功し、別の試行で失敗する可能性があるからです。 これに対処する方法の 1 つは、同じ操作でレッド チーミングを複数回繰り返し実行することです。 これを実現するために、組織は運用のスケーリングに役立つ自動化に投資します。 また、リスクの程度を定量化する体系的な測定戦略も開発しています。

AI システムは絶えず進化している

新しいモデルがリリースされると、それらを使用する AI アプリケーションも定期的に更新されます。 たとえば、開発者は LLM または AI 対応アプリケーションのメタプロンプト (システム メッセージとも呼ばれる) を更新できます。 メタプロンプトによって、基になる言語モデルに基になる命令が提供されます。 メタプロンプトを変更すると、モデルの応答方法が変わるので、レッド チーミングを再度実行する必要があります。 LLM からの応答は決定論的ではなく確率論的であるため、変更の結果を予測することはできず、テストを通してのみ実際に理解することができます。 AI レッド チームは、体系的で自動化された測定とテストを実行し、AI 対応システムを時間の経過と共に監視する必要があります。

AI の障害を軽減するには多層防御が必要である

AI レッド チーミングには、多層防御の方法が必要です。 多層防御では、複数のセキュリティ コントロールを適用する必要があり、それぞれによって異なる敵対的な戦略が軽減されます。 AI 対応アプリケーションでは、メタプロンプトの使用に対し、分類子を使用して、潜在的に有害なコンテンツにフラグを付けることが必要となる可能性があります。 分類子を実装することで、AI 対応アプリケーションの動作をガイドし、対話型シナリオでの会話のドリフトを制限することが可能になります。

AI システムの 4 つの階層型セキュリティ コントロールを示す図:入力分類子、メタプロンプト命令、アプリケーション コントロール、モデルの配置。