Filtración de datos
La filtración de datos es la transferencia no autorizada de información desde equipos o dispositivos. En los sistemas de inteligencia artificial, la filtración de datos presenta riesgos únicos porque los modelos de inteligencia artificial contienen, acceden y generan datos valiosos en varios niveles. MITRE ATLAS cataloga ataques de filtración bajo táctica AML. TA0010.
Tres tipos de filtración de datos relacionados con la inteligencia artificial son:
- Filtración del modelo de IA
- Filtración de datos de entrenamiento
- Filtración de datos de interacción
Filtración del modelo de IA
La filtración de modelos es la extracción no autorizada de la arquitectura, ponderaciones u otros componentes propietarios de un modelo de IA. Los atacantes pueden aprovechar esto para replicar o usar el modelo con fines propios, lo que podría poner en peligro su integridad e propiedad intelectual.
El robo de modelos puede producirse a través de:
- Acceso directo: un atacante obtiene acceso a los archivos de modelo almacenados en un repositorio, almacenamiento en la nube o entorno de implementación.
- Extracción basada en API: un atacante envía un gran número de consultas cuidadosamente diseñadas a la API del modelo y usa las respuestas para reconstruir una copia funcional del modelo (a veces denominada robo de modelos o clonación de modelos).
- Ataques de canal lateral: un atacante observa información indirecta, como tiempos de respuesta, uso de memoria o consumo de energía para deducir detalles sobre la estructura interna del modelo.
Filtración de datos de entrenamiento
La filtración de datos de entrenamiento se produce cuando los datos usados para crear un modelo de inteligencia artificial se transfieren o filtran de forma ilícita. Esto implica el acceso no autorizado a conjuntos de datos confidenciales, lo que puede provocar infracciones de privacidad, infracciones normativas o ataques adversarios que aprovechan el conocimiento de los datos de entrenamiento.
Los atacantes también pueden usar ataques de inferencia de pertenencia para determinar si se han incluido puntos de datos específicos en el conjunto de entrenamiento, por ejemplo, confirmando que los registros médicos de una persona específica se usaron para entrenar un modelo sanitario.
Filtración de datos de interacción
Cuando los usuarios interactúan con sistemas de inteligencia artificial (especialmente los agentes de inteligencia artificial), proporcionan información confidencial de forma rutinaria a través de avisos: cifras financieras, detalles del cliente, estrategia interna o código propietario. Además de lo que los usuarios escriben directamente, los agentes de inteligencia artificial también extraen los datos de la organización a través de la generación aumentada de recuperación (RAG), las llamadas a herramientas y los datos adjuntos de archivos. Esto crea una colección enriquecida de datos confidenciales que se extiende mucho más allá del conjunto de entrenamiento original.
Los datos de interacción son vulnerables a la filtración de varias maneras:
- Recopilación de mensajes y respuestas: un atacante que obtiene acceso a los registros de conversación o intercepta las llamadas API puede extraer la información confidencial que los usuarios comparten durante sus sesiones.
- Inyección indirecta de mensajes: una instrucción malintencionada oculta en un documento o correo electrónico puede hacer que un agente filtre los datos de la organización recuperados a través de sus respuestas, sin que el usuario se haya dado cuenta de lo que ha ocurrido.
- Interceptación de la carga útil de llamadas a herramientas: cuando un agente llama a herramientas o APIs externas, pasa datos entre sistemas. Si estas conexiones no están protegidas correctamente, un atacante puede interceptar las cargas para capturar los datos que se intercambian.
- Exposición del registro de conversaciones: los historiales de conversaciones almacenados contienen tanto las entradas confidenciales del usuario como las respuestas del sistema, que a menudo incluyen información confidencial resumida. Estos registros se convierten en un destino de alto valor si no están protegidos correctamente.
A diferencia de la filtración de datos de entrenamiento o modelo, la filtración de datos de interacción es un riesgo continuo que se produce cada vez que un usuario trabaja con un sistema de inteligencia artificial. El volumen y la sensibilidad de estos datos crecen con cada interacción.
El doble rol de inteligencia artificial en la filtración de datos
La inteligencia artificial desempeña un papel fundamental en la prevención y habilitación de la filtración de datos. Aunque las herramientas con tecnología de inteligencia artificial pueden ayudar a detectar patrones anómalos de acceso a datos e identificar posibles infracciones, la inteligencia artificial también proporciona a los atacantes funcionalidades avanzadas para robar información confidencial de forma más eficaz. Esta influencia dual crea un desafío complejo para las organizaciones.
Estrategias de mitigación
La filtración de datos se puede mitigar mediante una combinación de prácticas de seguridad estándar y controles específicos de la inteligencia artificial:
- Principio de privilegios mínimos: restrinja el acceso a los modelos, los datos de entrenamiento y los registros de interacción solo a aquellos que lo necesiten.
- Clasificación y etiquetado de datos: clasificación y etiquetado de datos a los que acceden las aplicaciones de IA para que los sistemas de supervisión puedan aplicar los controles de acceso adecuados
- Arquitectura de confianza cero: no asumir la confianza basada en la ubicación de red; verificar cada solicitud de acceso
- Cifrado: cifrado de datos en reposo y en tránsito, incluidos los registros de conversación y las comunicaciones de API
- Directivas de retención: limitar cuánto tiempo se almacenan los datos de interacción para reducir la ventana de exposición
- Saneamiento de entrada: limpiar las entradas antes de pasarlas a herramientas externas para evitar la fuga de datos a través de acciones del agente.
- Supervisión del comportamiento: seguimiento del comportamiento del agente para patrones de acceso a datos inesperados que podrían indicar un intento de filtración
- Limitación de velocidad: limitar los volúmenes de consultas de API para hacer que los ataques de extracción de modelos no sean prácticos