AI レッドチーミングとは何ですか?

7 分

レッドチーミングとは、情報セキュリティ業界において、体系的な敵対攻撃を使用してセキュリティの脆弱性をテストするプロセスを表すために使用されている用語です。レッドチーミングは、組織のシステムのセキュリティを強化するために実行されます。レッドチーミングは、悪意のある第三者による不正な攻撃とは異なります。

大規模言語モデル (LLM) をアプリケーションエコシステムに導入するには、AI システムの調査、テスト、および攻撃に対して敵対的手法を含めるようにレッドチームに求める必要があります。 AI 対応アプリケーションの使用が敵対的な場合、さらには無害である場合にすら、潜在的に有害な出力が生成される可能性があります。たとえば、企業のソーシャルメディアチャットボットが破損したことで、ヘイトスピーチが生成されたり、暴力が賛美されたりすることがあります。敵対的な使用の場合は、AI アプリケーションからプライベートデータが出力されたり、攻撃が作成されたりする可能性があるほか、他のダウンストリームセキュリティに悪影響を及ぼす可能性もあります。

次の図は、LLM がアプリケーションエコシステムに導入されて以来、レッドチーミングに関して生じた範囲の拡大の概要を示したものです。

レッドチーム活動をAI対応アプリケーションに拡張することを示す図。

AI レッドチーミングは、一般的な LLM に対するレッドチーム攻撃などの基本 LLM レベル、または AI 対応アプリケーションがバックエンドインフラストラクチャの一部として LLM を使用するアプリケーションレベルの 2 つのレベルで行われます。この 2 つのレイヤーのアプローチを使用すると、次のような結果が得られます。

モデルに対してレッドチーミングを実行することは、モデルが誤用される可能性をプロセスの早い段階で特定したり、モデルの機能の範囲を定めたり、モデルの制限を理解したりするのに役立ちます。これらの分析情報は、モデルの開発プロセスに取り込むことができ、将来のモデルバージョンを強化するのに役立ちます。
アプリケーションレベルのレッドチーミングでは、システム全体のアプローチを採用しており、ベース LLM はその一部です。たとえば、AI を利用した検索アシスタントに対して AI レッドチーミングを実行する場合は、より広範な検索エクスペリエンスと共に、基になる LLM をプローブする必要があります。システム全体のアプローチを採用すると、全体的なアプリケーション固有の安全トリガーを含めることで、モデルレベルの安全メカニズムだけでは及ばない、障害の特定を容易に行うことができます。

成熟した AI プラクティスを持つ組織は、LLM、AI 対応アプリケーション、サービスに対してこれらの敵対的なテストを実行する専用の AI Red Teams を実行します。これらのチームは、次の内容を学習しました。

AI のレッドチーミングは、従来のレッドチーミングよりも範囲が広い
AI レッドチーミングは、悪意のあるペルソナ、および無害なペルソナに起因する失敗に重点を置いている
生成 AI システムに対するレッドチーミングでは、同じテストを複数回試行する必要がある
AI システムは絶えず進化している
AI の障害を軽減するには多層防御が必要である

AI レッドチーミングは、従来のレッドチーミングよりも広範囲にわたる

AI レッドチーミングは、セキュリティおよび責任ある AI (安全性) の結果を両方とも調査することを表す総称になりました。 AI レッドチーミングは、従来のレッドチーミングと目標は重なりますが、攻撃ベクトルとして LLM を含んでいます。 AI レッドチーミングでは、プロンプトインジェクションやモデルポイズニングなど、新しい種類のセキュリティ脆弱性に対する防御をチェックします。 AI レッドチーミングでは、公平性の問題や有害なコンテンツなど、組織の評判を損なう可能性のある結果が出力されていないかについても調査が行われます。 LLM または AI 対応ワークロードを公開する前に AI レッドチーミングを実行することで、組織は問題を特定し、防御投資に優先順位を付けることができます。

AI レッドチーミングは、悪意のあるペルソナ、および無害なペルソナに起因する失敗に重点を置いている

悪意のある敵対者のみに焦点を当てた従来のセキュリティレッドチーミングとは異なり、AI レッドチーミングでは、より広範なペルソナおよび障害を考慮します。 AI レッドチームは、AI を利用した検索およびアシスタント製品に対する敵対的なテストから重要な教訓を学びました。 AI 対応検索エンジンをテストする場合、AI レッドチーミングでは、悪意のある敵対者がセキュリティに重点を置いた手法によって AI システムを破壊する方法に焦点を当てています。また、通常のユーザーが操作するときに、システムが問題のある有害なコンテンツを生成する方法についても説明します。これは重要なのは、問題のあるコンテンツを生成する主力の AI 製品が、組織にとって重大な評判の害を引き起こす可能性があるためです。

生成 AI システムのレッドチーミングでは、同じテストを複数回試行する必要がある

従来のレッドチーミングエンゲージメントでは、同じ入力に対して 2 つの異なる時点でツールまたは手法を使用すると、常に同じ出力が生成されます。これは確定的な出力と呼ばれます。生成 AI システムは確率論的であるため、同じ入力を 2 回実行すると、異なる出力が提供される可能性があります。

生成型 AI の確率論的性質により、クリエイティブな出力の範囲が広がります。このことは、レッドチーミングにとって課題となります。同じテストプロンプトを使用した場合に、ある試行で成功し、別の試行で失敗する可能性があるからです。これに対処する方法の 1 つは、同じ操作でレッドチーミングを複数回繰り返し実行することです。これを実現するために、組織は運用のスケーリングに役立つ自動化に投資します。また、リスクの程度を定量化する体系的な測定戦略も開発しています。

AI システムは絶えず進化している

新しいモデルがリリースされると、それらを使用する AI アプリケーションも定期的に更新されます。たとえば、開発者は LLM または AI 対応アプリケーションのメタプロンプト (システムメッセージとも呼ばれる) を更新できます。メタプロンプトによって、基になる言語モデルに基になる命令が提供されます。メタプロンプトを変更すると、モデルの応答方法が変わるので、レッドチーミングを再度実行する必要があります。 LLM からの応答は決定論的ではなく確率論的であるため、変更の結果を予測することはできず、テストを通してのみ実際に理解することができます。 AI レッドチームは、体系的で自動化された測定とテストを実行し、AI 対応システムを時間の経過と共に監視する必要があります。

AI の障害を軽減するには多層防御が必要である

AI レッドチーミングには、多層防御の方法が必要です。多層防御では、複数のセキュリティコントロールを適用する必要があり、それぞれによって異なる敵対的な戦略が軽減されます。 AI 対応アプリケーションでは、メタプロンプトの使用に対し、分類子を使用して、潜在的に有害なコンテンツにフラグを付けることが必要となる可能性があります。分類子を実装することで、AI 対応アプリケーションの動作をガイドし、対話型シナリオでの会話のドリフトを制限することが可能になります。

フィードバック

このページはお役に立ちましたか?

AI レッド チーミングとは何ですか?

AI レッド チーミングは、従来のレッド チーミングよりも広範囲にわたる

AI レッド チーミングは、悪意のあるペルソナ、および無害なペルソナに起因する失敗に重点を置いている

生成 AI システムのレッド チーミングでは、同じテストを複数回試行する必要がある