AI システムをグラウンディングする
接地とは、モデルの一般的なトレーニング知識のみに依存するのではなく、AI システムの応答を検証済みの実際のデータに接続するプロセスです。 基礎を定めなければ、生成 AI モデルはトレーニング中に学習されたパターンから排他的に引き出されます。これは、特定のユース ケースでは古い、不完全、または正しくない可能性があります。 接地は、品質管理とセキュリティコントロールの両方です。
セキュリティの基礎が重要な理由
セキュリティの観点から見ると、未解決の AI システムは、いくつかのリスクを引き起こす可能性があります。
- 製造された出力: 根拠のないモデルは、自信を持って述べられたが実際には誤った情報を生成する可能性が高く、ユーザーはそれを検証せずに信じる可能性があります。
- 古い情報: 数か月前または何年も前のデータでトレーニングされたモデルは、古いガイダンスを提供する可能性があり、特にセキュリティに関するアドバイス、コンプライアンス要件、または製品ドキュメントでは危険です
- 無制限の範囲: 根拠のないモデルは、信頼できる十分な知識が不足している領域を含め、あらゆるトピックに関する質問に答える可能性があります
グラウンディングでは、モデルが特定の検証済みデータ ソースと連携するように制限され、製造された出力リスクの攻撃対象領域が減少し、システム プロンプトで定義されている境界を強制するのに役立ちます。
接地の手法
検証済みデータで AI システムを構築するには、いくつかの手法が一般的に使用されます。
検索拡張生成 (RAG)
RAGは、最も広く採用されている接地技術です。 次の方法で動作します。
- ユーザーのクエリに基づいてナレッジ ベース、データベース、または検索インデックスから関連するドキュメントまたはデータを取得する
- この取得した情報を使用してプロンプトを拡張する
- モデルの機能と特定の取得されたデータの両方によって通知される応答の生成
RAG を使用すると、モデルの再トレーニングを必要とせずに、AI が現在のコンテキスト固有の回答を提供できます。 たとえば、RAG に基づいている AI アシスタントは、クエリ時に最新のポリシー ドキュメントを取得することで、組織の内部ポリシーに関する質問に回答できます。
RAG 実装のセキュリティに関する考慮事項は次のとおりです。
- ソース データに対するアクセス制御: 取得システムがユーザーと同じアクセス制御を遵守していることを確認します。 AI は、ユーザーが表示する権限がないドキュメントを取得しないでください。
- ソース データの整合性: ナレッジ ベースを改ざんから保護します。 攻撃者が接地データを変更できる場合、AI の応答 (間接的な操作の一種) に影響を与える可能性があります。
- 引用と追跡可能性: 各応答に通知されたソースを引用するようにシステムを構成し、モデルが接地データから迷い出たときの精度を検証して検出できるようにします。
接地のための迅速なエンジニアリング
高度なプロンプト エンジニアリング手法は、グラウンディング データの使用方法をモデルに指示することで RAG を補完します。
- 指定されたコンテキストにのみ回答を基にする明示的な命令を含める
- 接地データに回答が含まれていない場合のモデルの応答方法を定義します ("使用可能な情報に基づいて、その質問に対する回答がありません")
- ソース間で競合する情報をモデルが処理する方法に関する規則を設定する
根拠性検出
一部の AI プラットフォームでは、組み込みの機能として接地検出が提供されます。 この機能は、提供されたソースマテリアルに対するモデルの要求を評価し、接地データでサポートされていない情報を含む応答にフラグを設定します。 根拠に基づく検出は、生成後の安全チェックとして機能し、他のチェックをすり抜けたねつ造された出力を検出します。
グラウンドのベスト プラクティス
AI システムで接地を実装する場合:
- データを最新の状態に保つ: ナレッジ ベースを定期的に更新するプロセスを確立します。 古い接地データは、接地データがない場合と同じくらい問題になる可能性があります。
- ソースの品質を検証する: 接地には、信頼できる検証済みソースのみを使用します。 信頼性の低いデータ転送に基づいて、AIの応答の信頼性が低下します。
- 接地メトリックを監視する: モデルの応答が接地される頻度と非接地の頻度を追跡します。 根拠のない応答の増加は、取得パイプラインまたは接地データ自体に問題があることを示している可能性があります。
- コンテンツ フィルターとの組み合わせ: 階層型防御アプローチには、コンテンツ フィルターとメタプロンプト命令と共に接地検出を使用します。