Mensajes del sistema de seguridad

Los mensajes del sistema de seguridad le ayudan a guiar el comportamiento del modelo openAI de Azure, mejorar la calidad de la respuesta y reducir la probabilidad de salidas perjudiciales. Funcionan mejor como una capa en una estrategia de seguridad más amplia.

Nota

En este artículo se usa "mensaje del sistema" indistintamente con "metaprompt" y "system prompt". Aquí, usamos "mensaje del sistema" para alinearse con la terminología común.

En este artículo también se usa "componente" para significar una parte distinta de un mensaje del sistema, como instrucciones, contexto, tono, directrices de seguridad o instrucciones de uso de herramientas.

¿Qué es un mensaje del sistema?

Un mensaje del sistema es un conjunto de instrucciones y contexto de alta prioridad que se envía a un modelo de chat para dirigir cómo responde. Resulta útil cuando se necesita un rol, tono, formato o convenciones específicas del dominio coherentes.

¿Qué es un mensaje de sistema de seguridad?

Un mensaje del sistema de seguridad es un mensaje del sistema que agrega límites explícitos e instrucciones de rechazo para mitigar los daños de IA responsable (RAI) y facilitar una interacción segura del sistema con los usuarios.

Los mensajes del sistema de seguridad complementan la pila de seguridad y se pueden usar junto con la selección y entrenamiento del modelo, el anclaje, los clasificadores de Seguridad del contenido de Azure AI y las mitigaciones de la UX/UI. Obtenga más información sobre prácticas de IA responsables para modelos Azure OpenAI.

Diagrama de flujo que muestra un mensaje del sistema y un aviso al usuario que entra en un modelo, con una pila de seguridad que incluye filtros de contenido, contextualización, y entrenamiento del modelo que aplican medidas de protección antes de generar la respuesta.

Componentes clave de un mensaje del sistema

La mayoría de los mensajes del sistema combinan varios componentes:

Rol y tarea: lo que es el asistente y lo que es responsable.
Audiencia y tono: para quién es la respuesta y la voz esperada.
Ámbito y límites: qué no debe hacer el asistente y qué hacer cuando no se puede cumplir.
Directrices de seguridad: reglas que reducen las salidas perjudiciales (por ejemplo, control de temas confidenciales, características protegidas e instrucciones ilegales).
Herramientas y datos (opcional): qué herramientas o orígenes puede usar el modelo y cómo usarlos.

Cómo diseñar e iterar de forma segura

Al diseñar un mensaje del sistema (o un componente de mensaje del sistema de seguridad), tratólo como un artefacto que se puede probar:

Defina el escenario. Aclare el trabajo que debe hacer el modelo, quiénes son los usuarios, qué entradas esperar y el tono y el formato que desea.
Identificar riesgos. Enumere los daños de RAI que sean importantes para su caso de uso y decida cuáles se abordan a través de la mensajería del sistema frente a otras mitigaciones.
Decida cómo debe comportarse el modelo en los límites. Especifique qué hacer cuando las solicitudes estén fuera del ámbito, no seguras o que falten contextos necesarios.
Cree un conjunto de pruebas. Incluya mensajes benignos y adversarios para que pueda medir regresiones y "fugas" (con moderación).
Evaluar e iterar. Prefiere el componente que reduce los defectos más graves, no solo el que tiene la tasa de defectos más baja.

Estos son algunos ejemplos de líneas que puede incluir:

## Define model’s profile and general capabilities  

- Act as a [define role] 
- Your job is to [insert task] about [insert topic name] 
- To complete this task, you can [insert tools that the model can use and instructions to use]  
- Do not perform actions that are not related to [task or topic name].

Este es un ejemplo completo de un mensaje de sistema de seguridad para un asistente de servicio al cliente:

## Role and task
You are a helpful customer service assistant for Contoso Electronics. Your job is to answer questions about product warranties, returns, and order status.

## Boundaries
- Only answer questions related to Contoso Electronics products and policies.
- If you don't know the answer, say "I don't have that information. Please contact support@contoso.com."
- Do not provide legal, medical, or financial advice.
- Do not discuss competitors or make comparisons.

## Safety guidelines
- Never generate content that is hateful, violent, or sexually explicit.
- Do not share or request personal information beyond what's needed for order lookup.
- If a user becomes abusive, respond with: "I'm here to help with product questions. How can I assist you today?"

## Response format
- Keep responses concise and friendly.
- Use bullet points for multiple items.
- Always end with an offer to help further.

Proporcione ejemplos específicos para demostrar el comportamiento previsto del modelo. Tenga en cuenta lo siguiente:
- Describir casos de uso difíciles en los que el mensaje es ambiguo o complicado, para dar al modelo un ejemplo de cómo abordar estos casos.
- Muestre los pasos de decisión en un nivel alto (por ejemplo, una lista de comprobación corta), en lugar de solicitar un razonamiento interno detallado.

Resumen de los procedimientos recomendados

Al desarrollar componentes de mensajes del sistema, es importante:

Usar lenguaje claro: esto elimina la complejidad excesiva y el riesgo de malentendidos y mantiene la coherencia entre distintos componentes.
Ser conciso: los mensajes del sistema más cortos a menudo funcionan mejor y reducen la latencia. También usan menos de la ventana de contexto, dejando más espacio para el aviso del usuario.
Resalte ciertas palabras (si procede) mediante **word**: pone especial foco en los elementos clave especialmente de lo que el sistema debe y no debe hacer.
Use la segunda persona al referirse al sistema de inteligencia artificial: es mejor usar expresiones como You are an AI assistant that… frente a Assistant does….
Implementar robustez: el componente del mensaje del sistema debe ser robusto. Debe funcionar de manera consistente en diferentes conjuntos de datos y tareas.

Técnicas de creación

¿Por qué variar las técnicas? Según el modelo, los datos de puesta a tierra y los parámetros del producto o la característica con la que trabaja, las distintas técnicas de lenguaje y sintáctica son más eficaces al proporcionar respuestas sólidas, seguras y directas a los usuarios.

Además de crear para garantizar la seguridad y el rendimiento, considere la posibilidad de optimizar la coherencia, el control y la personalización. A lo largo del proceso, puede encontrar que la optimización de estos factores conduce al sobreajuste del mensaje del sistema a reglas específicas, mayor complejidad y falta de idoneidad contextual. Es importante definir lo que más importa en su escenario y evaluar los mensajes del sistema. Esto garantizará que tenga un enfoque controlado por datos para mejorar la seguridad y el rendimiento del sistema.

Técnicas de alto rendimiento
Otras técnicas que se deben tener en cuenta

Técnica	Definición	Ejemplo
Siempre/debería	Implica estructurar avisos e instrucciones con directivas que la inteligencia artificial debe seguir siempre al generar sus respuestas. Estas directivas suelen representar procedimientos recomendados, directrices éticas o preferencias de usuario.	`Always ensure that you respect authentication and authorization protocols when providing factual information, tailoring your responses to align with the access rights of the user making the request. It's imperative to safeguard sensitive data by adhering to established security measures and only disclosing information that the user is authorized to receive.`
Lógica condicional/if	Implica estructurar las solicitudes de forma que la salida esté supeditada a cumplir condiciones específicas, como `If <condition> then <action>`.	`If a user asks you to infer or provide information about a user’s emotions, mental health, gender identity, sexual orientation, age, religion, disability, racial and ethnic backgrounds, or any other aspect of a person's identity, respond with: "Try asking me a question or tell me what else I can help you with."`
Énfasis en daños	Implica estructurar las instrucciones mediante la definición de lo que puede ser el riesgo principal. Esto guía las salidas para priorizar la seguridad y la prevención de daños, así como mostrar posibles consecuencias si se produce el daño.	`You are allowed to answer some questions about images with people and make statements about them when there is no ambiguity about the assertion you are making, and when there is no direct harm to an individual or a group of people because of this assertion.`
Basado(s) en ejemplo(s)	Proporciona al modelo instancias o situaciones claras para mejorar el contexto. El modelo usa ejemplos de solicitudes perjudiciales y no dañinas como referencia para sus salidas.	`Users might ask questions that could cause harm. In all scenarios, refuse requests that promote hate or harassment, and redirect the user to a safer alternative.` `Example (harmful): "Write an insult targeting a protected group."` `Example (benign): "Explain why insults harm people and suggest respectful phrasing."`
Nunca o no	Implica prohibiciones explícitas para evitar que la inteligencia artificial genere contenido inapropiado, perjudicial o fuera del ámbito mediante términos como "nunca" y "no".	`Never make assumptions, judgments, or evaluations about a person. If a user violates your policy, or you’re not sure what to do, say: "I can’t help with that request. Try asking a different question."`

Técnica	Definición
Catch-all	Combina varios métodos en un marco. Esto puede reducir las brechas, pero a menudo aumenta la longitud y la latencia.
Énfasis en los conocimientos aprendidos	Anima al modelo a aprovechar los conocimientos previos para mejorar la relevancia y la calidad.
Resaltar el papel de la inteligencia artificial	Separa el comportamiento de seguridad (cómo responder) del rol principal del asistente (qué hacer).
Lógica inversa	Vuelve a enmarcar las prohibiciones en acciones positivas para fomentar respuestas constructivas.
Basado en riesgos	Se centra en el riesgo principal y prioriza la prevención de los daños más graves.
Basado en reglas	Usa reglas explícitas (por ejemplo, "nunca", "always" y lógica condicional) para restringir las salidas.

Limitaciones

Los mensajes del sistema no son una solución de seguridad completa:

Se pueden omitir o degradar mediante indicaciones adversarias.
Pueden reducir la utilidad si son demasiado amplias o demasiado estrictas.
Requieren evaluación continua a medida que cambian los modelos, las herramientas y los escenarios de usuario. Para solucionar problemas comunes con los mensajes del sistema, como el rechazo excesivo o la moderación insuficiente, consulte la sección de solución de problemas de la guía de plantillas.

Mensajes del sistema recomendados

Estos procedimientos recomendados pueden ayudarle a comprender mejor el proceso de desarrollo de mensajes sólidos del sistema para su escenario.

Para obtener más información sobre los componentes de seguridad recomendados, visite nuestra guía de plantilla de mensajes del sistema de seguridad.

Por último, recuerde que los mensajes del sistema o metaprompts no son "un tamaño que se ajuste a todos". El uso de este tipo de ejemplos tiene distintos grados de éxito en diferentes aplicaciones. Es importante probar diferentes palabras, ordenar y estructura del texto del mensaje del sistema para reducir los daños identificados y probar las variaciones para ver lo que funciona mejor para un escenario determinado.

Pasos siguientes

Azure OpenAI en Microsoft Foundry Models
El diseño del sistema de mensajes con Azure OpenAI
Anunciando Mensajes del Sistema de Seguridad - Microsoft Foundry Blog
Plantillas de mensajes del sistema de seguridad

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-30