AI モデルの操作
モデル操作は、AI モデル自体の整合性またはトレーニングに使用されるデータを対象とする攻撃のカテゴリです。 推論時 (要求の処理時) にモデルを悪用するプロンプトベースの攻撃とは異なり、モデル操作攻撃は、デプロイ前のトレーニングまたは微調整中にモデルを侵害します。 これにより、破損した動作がモデルの学習機能の一部になるため、特に危険になります。
モデル操作は、手法 AML としてカタログ化されます。MITRE ATLAS の T0022 (データポイズニング) が、LLM アプリケーションの OWASP Top 10 に "トレーニング データポイズニング" として表示されます。
このカテゴリの 2 つの主な脆弱性の種類は、モデル ポイズニングとデータ ポイズニングです。
モデル ポイズニング
モデル有害性とは、モデル アーキテクチャ、トレーニング コード、またはハイパーパラメーターを改ざんすることによって、トレーニング済みのモデルを破損させる機能です。 攻撃者は、トレーニング データを変更するのではなく、モデルの構造またはトレーニング プロセスを直接対象とします。 モデル汚染攻撃手法の例としては以下が挙げられます。
可用性攻撃: これらは、トレーニング プロセスに非常に多くの悪いデータやノイズを挿入することを目的としているため、モデルの学習した決定境界が信頼できなくなります。 これにより、精度が大幅に低下し、モデルが使用できなくなる可能性があります。
整合性 (バックドア) 攻撃: これらの高度な攻撃は、ほとんどの入力に対してモデルが正常に機能したままですが、非表示のバックドアが導入されます。 このバックドアにより、攻撃者は特定の入力に対するモデルの動作を操作できます。たとえば、コンテンツ モデレーション モデルは、特定の非表示のトリガー フレーズを含むコンテンツを常に承認します。
敵対的アクセス レベル: 有害攻撃の有効性は、敵対者がモデルに対して持っているアクセスのレベルによって異なります。これは、トレーニング パイプラインへのフル アクセス (最も危険) から、API の対話によるアクセスの制限に至るまでです。 攻撃者は、悪意のあるモデルの更新や交互の最適化手法などの戦略を使用して、ステルスを維持できます。
データ ポイズニング
データポイズニングはモデルポイズニングに似ていますが、トレーニングを行う前にモデルのトレーニングまたはテストを行うデータを変更する必要があります。 これは、敵対者が悪意のあるデータを AI または機械学習 (ML) モデルのトレーニング データセットに意図的に挿入した場合に発生します。 その目標は、意思決定プロセス中のモデルの動作を操作することです。
データ中毒攻撃の 4 つの一般的な種類は次のとおりです。
バックドア操作による汚染
この攻撃では、敵対者が、モデルに隠された脆弱性、つまり "バックドア" を作成する目的で、トレーニング セットにデータを注入します。 モデルは、特定のトリガーを特定の結果に関連付ける方法を学習します。これは後で悪用される可能性があります。
たとえば、メール データに対してスパム フィルターがトレーニングされることを想像してください。 攻撃者がトレーニング中に特定の語句を正当なメールに微妙に導入した場合、フィルターは、そのフレーズを含む将来のスパム メールを正当なメールとして分類することを学習する可能性があります。
可用性攻撃
可用性攻撃は、トレーニング中にデータを汚染することによってシステムの有用性を妨害することを目的とします。 次に例を示します。
- 自律走行車のトレーニング データには、道路標識の画像が含まれています。 攻撃者が誤解を招くか、改変された道路標識画像を注入することで、配置中に車両に実際の標識を誤って解釈させる可能性があります。
- 不快な用語を含む有害なデータが導入された場合、顧客との対話に関してトレーニングされたチャットボットは不適切な言語を学習する可能性があります。
モデル反転攻撃
モデル反転攻撃は、モデルの出力を悪用して、トレーニング データに関する機密情報を推論します。 たとえば、顔認識モデルは、公人と個人の両方を含むデータセットでトレーニングされます。 攻撃者は、モデルの出力を使用して個人の顔を再構築し、プライバシーを侵害する可能性があります。
ステルス攻撃
ステルス性のあるポイズニング手法は、トレーニング中に検出されるのを回避することが目的です。 攻撃者は、アラームのトリガーを回避するために、トレーニング データのごく一部を微妙に変更します。 たとえば、トレーニング中に手書きの数字の画像内の数ピクセルを変更すると、トレーニング データの変更に気付かずに、数字認識モデルによって特定の数字が誤って分類される可能性があります。
モデル操作の軽減
モデル操作攻撃は、いくつかのセキュリティ コントロールを使用して軽減できます。
- モデルの整合性を保護する: ID、ネットワーク、およびデータセキュリティ制御を使用して、モデルのトレーニング パイプライン、アーキテクチャ、および構成へのアクセスを制限します。 承認された担当者のみがトレーニング コードまたはハイパーパラメーターを変更できることを確認します。
- トレーニング データの保護: アクセス制御とデータ ガバナンスを使用して、トレーニング データセットへのアクセスを制限します。 データの実証を検証し、整合性チェックを実装して未承認の変更を検出します。
- モデルの動作を検証する: トレーニングの前後に既知のベンチマークに対してモデルをテストし、有害性を示す可能性のある予期しない動作の変更を検出します。
- モデルの出力を監視する: 送信コンテンツ フィルターをデプロイして、モデルの反転攻撃またはその他のデータ漏えいの兆候をモデル応答によって検出します。
- ML-BOM (機械学習部品表) の使用: パイプライン全体を通じてデータとモデルの発生元および変換を追跡し、監査証跡を維持します。