Resumen

Completado

En este módulo, ha obtenido información sobre los conceptos fundamentales de la seguridad de la inteligencia artificial. Ha explorado cómo la seguridad de la inteligencia artificial difiere de la ciberseguridad tradicional, especialmente debido a la naturaleza no determinista de la inteligencia artificial generativa y a la superficie de ataque expandida creada por interfaces de lenguaje natural. También ha obtenido información sobre la importancia de la inteligencia artificial responsable y los marcos estándar del sector, como OWASP Top 10 para aplicaciones LLM y MITRE ATLAS.

Ha examinado las tres capas de arquitectura de inteligencia artificial (uso, aplicación y plataforma) y las distintas preocupaciones de seguridad en cada capa. A continuación, exploraste cinco categorías de ataques específicos a la IA.

  • Jailbreaking: técnicas que omiten los límites de protección de seguridad, como la inyección directa, los ataques crescendo y los trucos de encoding
  • Inyección de mensajes: ataques directos e indirectos (XPIA) que manipulan el comportamiento del modelo a través de instrucciones malintencionadas
  • Manipulación de modelos: ataques de envenenamiento de modelos y de datos, que ponen en peligro el modelo durante el entrenamiento
  • Filtración de datos: extracción no autorizada de modelos, datos de entrenamiento o datos de interacción
  • Dependencia excesiva: el riesgo de comportamiento humano de aceptar la salida de IA sin verificación

Para cada tipo de ataque, aprendiste sobre las estrategias de mitigación en capas que combinan controles técnicos, monitorización y supervisión humana. La seguridad de la inteligencia artificial es un campo en constante evolución: las nuevas técnicas de ataque y las contramedidas siguen emergendo. Mantenerse al día con marcos como OWASP, MITRE ATLAS y NIST AI RMF es esencial para mantener controles de seguridad eficaces.

Otros recursos

Para continuar con el recorrido de aprendizaje, ve a: