Manipulación del modelo de IA

Completado

La manipulación de modelos es una categoría de ataques que tienen como destino la integridad de un modelo de IA o los datos usados para entrenarlo. A diferencia de los ataques basados en mensajes que aprovechan el modelo en el momento de la inferencia (cuando se procesan las solicitudes), los ataques de manipulación del modelo ponen en peligro el modelo durante el entrenamiento o ajuste preciso, antes de implementarlo. Esto hace que sean especialmente peligrosos porque el comportamiento dañado forma parte de las funcionalidades aprendidas del modelo.

La manipulación del modelo se cataloga como técnica AML. T0022 (intoxicación de datos) en MITRE ATLAS y aparece en el OWASP Top 10 para aplicaciones LLM como "Intoxicación de datos de entrenamiento".

Los dos tipos de vulnerabilidad principales de esta categoría son contaminación del modelo y contaminación de datos.

Diagrama de ataques de manipulación de modelos: intoxicación de datos y intoxicación del modelo que conduce a un modelo en peligro.

Contaminación del modelo

La intoxicación del modelo es la capacidad de dañar un modelo entrenado manipulando la arquitectura del modelo, el código de entrenamiento o los hiperparámetros. En lugar de modificar los datos de entrenamiento, el atacante tiene como destino la estructura del modelo o el proceso de entrenamiento directamente. Los ejemplos de técnicas de ataque de envenenamiento del modelo incluyen:

  • Ataques de disponibilidad: estos tienen como objetivo insertar tantos datos incorrectos o ruido en el proceso de entrenamiento que el límite de decisión aprendido del modelo deja de ser confiable. Esto puede provocar una caída significativa de la precisión, lo que hace que el modelo no se pueda usar.

  • Ataques de integridad (backdoor): estos ataques sofisticados dejan el modelo funcionando normalmente para la mayoría de las entradas, pero introducen una puerta trasera oculta. Esta puerta trasera permite al atacante manipular el comportamiento del modelo para entradas específicas; por ejemplo, hacer que un modelo de moderación de contenido apruebe siempre el contenido que contiene una frase de desencadenador oculta específica.

  • Niveles de acceso adversario: la eficacia de los ataques de intoxicación depende del nivel de acceso que el adversario tiene al modelo, desde el acceso completo a la canalización de entrenamiento (más peligroso) hasta el acceso limitado solo a través de interacciones de API. Los atacantes pueden usar estrategias como aumentar las actualizaciones de modelos malintencionados o técnicas de optimización alternas para mantener el sigilo.

Contaminación de datos

La intoxicación de datos es similar a la intoxicación del modelo, pero implica la modificación de los datos en los que se entrena o se prueba el modelo antes de que se realice el entrenamiento. Esto ocurre cuando un adversario inserta intencionadamente datos malintencionados en un conjunto de datos de entrenamiento del modelo de aprendizaje automático o inteligencia artificial (ML). El objetivo es manipular el comportamiento del modelo durante los procesos de toma de decisiones.

Entre los cuatro tipos comunes de ataques de intoxicación de datos se incluyen:

Contaminación por puerta trasera

En este ataque, un adversario inserta datos en el conjunto de entrenamiento con la intención de crear una vulnerabilidad oculta o "puerta trasera" en el modelo. El modelo aprende a asociar un desencadenador específico con un resultado específico, que posteriormente se puede aprovechar.

Por ejemplo, imagine un filtro de correo no deseado entrenado en datos de correo electrónico. Si un atacante introduce sutilmente una frase específica en correos electrónicos legítimos durante el entrenamiento, el filtro podría aprender a clasificar futuros correos electrónicos no deseados que contienen esa frase como legítima.

Ataques contra la disponibilidad del sistema

Los ataques de disponibilidad tienen como objetivo interrumpir la utilidad de un sistema al contaminar sus datos durante el entrenamiento. Por ejemplo:

  • Los datos de entrenamiento de un vehículo autónomo incluyen imágenes de señales de carretera. Un atacante podría insertar imágenes de señales de carretera engañosas o modificadas, lo que hace que el vehículo malinterprete las señales reales durante la implementación.
  • Los bots de chat entrenados en las interacciones del cliente podrían aprender un idioma inapropiado si se introducen datos dudosos que contienen términos ofensivos.

Ataques de inversión de modelos

Los ataques de inversión de modelos aprovechan la salida del modelo para deducir información confidencial sobre los datos de entrenamiento. Por ejemplo, un modelo de reconocimiento facial se entrena en un conjunto de datos que contiene figuras públicas y personas privadas. Un atacante podría usar los resultados del modelo para reconstruir las caras de personas privadas, violando la privacidad.

Ataques sigilosos

Las técnicas de intoxicación sigilosa tienen como objetivo eludir la detección durante el entrenamiento. Los atacantes modifican una pequeña fracción de los datos de entrenamiento para evitar desencadenar alarmas. Por ejemplo, modificar algunos píxeles en imágenes de dígitos manuscritos durante el entrenamiento podría provocar que un modelo de reconocimiento de dígitos clasificara de forma incorrecta dígitos específicos sin que nadie note el cambio en los datos de entrenamiento.

Mitigación de la manipulación de modelos

Los ataques de manipulación de modelos se pueden mitigar mediante varios controles de seguridad:

  • Proteger la integridad del modelo: limite el acceso a la canalización de entrenamiento, la arquitectura y la configuración del modelo mediante controles de identidad, red y seguridad de datos. Asegúrese de que solo el personal autorizado puede modificar el código de entrenamiento o hiperparámetros.
  • Proteger los datos de entrenamiento: restrinja el acceso a los conjuntos de datos de entrenamiento mediante controles de acceso y gobernanza de datos. Valide la procedencia de los datos e implemente comprobaciones de integridad para detectar modificaciones no autorizadas.
  • Validar el comportamiento del modelo: pruebe los modelos con pruebas comparativas conocidas antes y después del entrenamiento para detectar cambios de comportamiento inesperados que podrían indicar intoxicación.
  • Supervisar las salidas del modelo: desplegar filtros de contenido salientes para detectar indicios de ataques de inversión del modelo u otras fugas de datos a través de las respuestas del modelo.
  • Utilice ML-BOM (Bill of Materials de Aprendizaje Automático): haga seguimiento al origen y las transformaciones de datos y modelos a lo largo de la canalización para asegurar la conservación de un registro de auditoría.