Resumen
En este módulo, has aprendido las bases de las pruebas de seguridad de inteligencia artificial desde la perspectiva del red teaming de IA.
- Qué es la formación de equipos rojos de IA: una práctica que amplía las pruebas de seguridad tradicionales para cubrir superficies de ataque específicas de inteligencia artificial, abordando tanto las vulnerabilidades de seguridad como las preocupaciones de inteligencia artificial responsable. A diferencia de las pruebas tradicionales, las pruebas de equipo rojo de IA deben tener en cuenta las salidas probabilísticas, incluir tanto personas adversarias como benignas, y deben repetirse a medida que evolucionan los modelos y metaprompts.
- Las tres categorías: el red teaming de pila completa evalúa toda la infraestructura tecnológica. El aprendizaje automático adversario tiene como destino el propio modelo a través de técnicas como la evasión y la intoxicación de datos. La inyección de mensajes aprovecha la interfaz del lenguaje natural a través de la inyección directa, la inyección indirecta y el jailbreaking.
- Planeación de un ejercicio de red teaming: el red teaming eficaz requiere la contratación de equipos diversos y el diseño de pruebas adversariales tanto en el modelo como en las capas de aplicación. Los equipos realizan pruebas iterativas con y sin mitigaciones, usan herramientas automatizadas para complementar las pruebas manuales e informar de los resultados a las partes interesadas.
Las pruebas de seguridad de inteligencia artificial son una práctica continua, no una actividad única. A medida que se actualizan los modelos, los metaprompts cambian y surgen nuevas técnicas de ataque, las organizaciones deben probar y validar continuamente la posición de seguridad de sus sistemas de inteligencia artificial.
Otros recursos
Para continuar con el recorrido de aprendizaje, explore estos recursos: