Crear metaprompts
Un metaprompt, también conocido como mensaje del sistema o aviso del sistema, es un conjunto de instrucciones de lenguaje natural que definen cómo debe comportarse un sistema de inteligencia artificial. El modelo procesa el metaprompt antes de cualquier entrada del usuario, estableciendo las reglas básicas para cada interacción. El diseño de Metaprompt es un control de seguridad crítico para cada aplicación de inteligencia artificial generativa.
¿Por qué los metaprompts importan para la seguridad?
Los metaprompts sirven como primera línea de defensa del comportamiento para una aplicación de inteligencia artificial. Sin un metaprompt bien diseñado, un modelo puede:
- Devolver datos de entrenamiento sin procesar, incluido el material con derechos de autor, en lugar de resúmenes
- Siga las instrucciones malintencionadas insertadas en solicitudes de usuario o documentos recuperados.
- Generar contenido perjudicial, sesgado o fuera del tema
- Divulgación de sus propias instrucciones del sistema cuando se le pida
Por ejemplo, un buen metaprompt podría indicar: "Si un usuario solicita grandes cantidades de contenido de un origen específico, devuelva solo un resumen de los resultados en lugar del texto completo". Sin esta instrucción, el modelo podría recuperar y devolver el contenido completo de un trabajo con derechos de autor.
La investigación del sector muestra que los metaprompts bien diseñados reducen significativamente el riesgo de defectos de seguridad y salidas perjudiciales.
Componentes clave de un metaprompt efectivo
Normalmente, un metaprompt completo incluye varios tipos de instrucciones, entre los que se incluyen:
- Definición de rol y ámbito
- Reglas de seguridad y cumplimiento
- Instrucciones de puesta a tierra
- Defensas contra la manipulación
- Reglas para el formato de salida
Definición de rol y ámbito
Defina lo que se permite que la inteligencia artificial haga y lo que no se le permite hacer.
- Especificar el rol, el dominio de experiencia y el tono de la inteligencia artificial
- Establecer límites explícitos en temas que la inteligencia artificial no debe discutir
- Definir la audiencia de destino y el nivel de detalle adecuado
Reglas de seguridad y cumplimiento
Establecer límites de protección de comportamiento:
- Indicar al modelo que rechace las solicitudes de contenido dañino, ilegal o inapropiado
- Definir cómo debe controlar el modelo temas confidenciales (por ejemplo, preguntas médicas o legales)
- Requerir que el modelo reconozca la incertidumbre en lugar de fabricar respuestas
Instrucciones de puesta a tierra
Indique al modelo cómo usar sus datos de referencia:
- Indicar al modelo que base las respuestas en el contexto proporcionado en lugar de conocimientos generales
- Requerir citas o referencias de origen al responder preguntas fácticas
- Definir cómo debe controlar el modelo las preguntas fuera de sus datos de base ("No tengo información sobre eso")
Defensas contra la manipulación
Proteja el metaprompt en sí mismo frente al ataque:
- Indique al modelo que nunca muestre sus instrucciones del sistema, independientemente de cómo se frase la solicitud.
- Definir cómo debe responder el modelo a las solicitudes que intentan invalidar sus instrucciones
- Incluir instrucciones para omitir las directivas en conflicto encontradas en entradas de usuario o documentos recuperados
Reglas de formato de salida
Controle la estructura y el ámbito de las respuestas:
- Establecimiento de longitudes máximas de respuesta para evitar la exposición excesiva de los datos
- Definir los requisitos de formato de salida (por ejemplo, Markdown, texto sin formato, datos estructurados)
- Indique al modelo cómo controlar solicitudes de varias partes o ambiguas
Procedimientos recomendados de Metaprompt
Al diseñar metaprompts para sistemas de inteligencia artificial de producción:
- Ser específico y explícito: las instrucciones vagas dejan espacio para la interpretación. En lugar de "ser útil", especifique exactamente qué significa útil en su contexto.
- Prueba contra ataques conocidos: valide su metaprompt contra técnicas de jailbreak, intentos de inyección de mensajes y casos perimetrales. Equipo rojo en el que se le pide el sistema.
- Actualización periódica: a medida que surgen nuevas técnicas de ataque, actualice el metaprompt para abordarlas. Los proveedores de plataformas de inteligencia artificial actualizan continuamente las instrucciones de ingeniería y las plantillas de metaprompt con los procedimientos recomendados más recientes.
- Capa con otros controles: Los metaprompts son una capa de defensa. Compárelos con filtros de contenido, validación de entrada y supervisión de salida para la defensa en profundidad.
- Versión y auditoría: realice un seguimiento de los cambios en el metaprompt a lo largo del tiempo. Si el comportamiento del modelo cambia inesperadamente, debe poder determinar si se modificó el metaprompt.