AI Red Teaming Agent (versión preliminar) (clásico)

Visualización actual:Versión - Cambio a la versión del nuevo portal de Foundry

Importante

Los elementos marcados (versión preliminar) de este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se proporciona sin un contrato de nivel de servicio y no se recomienda para cargas de trabajo de producción. Es posible que algunas características no se admitan o que tengan funcionalidades restringidas. Para obtener más información, vea Supplemental Terms of Use for Microsoft Azure Previews.

Ai Red Teaming Agent es una herramienta eficaz diseñada para ayudar a las organizaciones a encontrar proactivamente riesgos de seguridad asociados con sistemas de inteligencia artificial generativos durante el diseño y el desarrollo de modelos y aplicaciones de IA generativas.

La formación de equipos rojo tradicional implica aprovechar la cadena de ciber kill y describe el proceso por el que se prueba un sistema para detectar vulnerabilidades de seguridad. Sin embargo, con el aumento de la inteligencia artificial generativa, el término equipos rojos de IA se ha acuñado para describir la identificación de riesgos nuevos (relacionados con el contenido y la seguridad) que estos sistemas presentan y se refiere a la simulación del comportamiento de un usuario adversario que intenta hacer que el sistema de inteligencia artificial se comporte de forma incorrecta.

El Agente de AI Red Teaming aprovecha el marco de código abierto de Microsoft para la Herramienta de Identificación de Riesgos de Python (PyRIT) y las capacidades de equipos rojos de IA junto con las Evaluaciones de Riesgos y Seguridad de Microsoft Foundry Risk and Safety Evaluations para ayudarle a evaluar automáticamente los problemas de seguridad de tres maneras diferentes.

Exámenes automatizados para detectar riesgos de contenido: En primer lugar, puede examinar automáticamente el modelo y los puntos de conexión de la aplicación para detectar riesgos de seguridad simulando sondeos adversarios.
Evaluar el éxito del sondeo: A continuación, puede evaluar y puntuar cada par de respuesta a ataques para generar métricas detalladas, como tasa de éxito de ataques (ASR).
Informes y registro Por último, puede generar una tarjeta de puntuación de las técnicas de sondeo de ataques y las categorías de riesgo para ayudarle a decidir si el sistema está listo para la implementación. Los resultados se pueden registrar, supervisar y realizar un seguimiento a lo largo del tiempo directamente en Foundry, lo que garantiza el cumplimiento y la mitigación continua de riesgos.

Juntos estos componentes (análisis, evaluación e informes) ayudan a los equipos a comprender cómo los sistemas de inteligencia artificial responden a ataques comunes, lo que en última instancia guía una estrategia completa de administración de riesgos.

Cuándo usar un ejercicio de red teaming de IA

Al pensar en los riesgos de seguridad relacionados con la inteligencia artificial en el desarrollo de sistemas de inteligencia artificial de confianza, Microsoft usa el marco de NIST para mitigar el riesgo de forma eficaz: gobernanza, asignación, medida, administración. Nos centraremos en las tres últimas partes en relación con el ciclo de desarrollo de vida de IA generativa.

Mapa: identifique los riesgos pertinentes y defina el caso de uso.
Medida: evalúe los riesgos a escala.
Administrar: mitigue los riesgos en producción y supervise con un plan de respuesta a incidentes.

AI Red Teaming Agent se puede usar para ejecutar exámenes automatizados y simular pruebas adversarias para ayudar a acelerar la identificación y evaluación de riesgos conocidos a escala. Esto ayuda a los equipos a "desplazarse a la izquierda" de incidentes reactivos costosos a marcos de pruebas más proactivos que pueden detectar problemas antes de la implementación. El proceso manual de red teaming de IA requiere mucho tiempo y recursos. Se basa en la creatividad de los expertos en protección y seguridad para simular sondeos adversarios. Este proceso puede crear un cuello de botella para que muchas organizaciones aceleren la adopción de la inteligencia artificial. Con el agente de Red Teaming de IA, las organizaciones ahora pueden aprovechar la profunda experiencia de Microsoft para escalar y acelerar su desarrollo de inteligencia artificial con IA confiable a la vanguardia.

Animamos a los equipos a usar AI Red Teaming Agent para ejecutar análisis automatizados a lo largo de la fase de diseño, desarrollo y preimplementación.

Diseño: elija el modelo fundamental más seguro en su caso de uso.
Desarrollo: actualización de modelos dentro de la aplicación o creación de modelos ajustados para su aplicación específica.
Implementación previa: antes de implementar aplicaciones de GenAI en producciones.

En producción, se recomienda implementar mitigaciones de seguridad como filtros de Seguridad de Contenido de Azure AI o implementar mensajes del sistema de seguridad mediante nuestras plantillas.

Cómo funciona AI Red Teaming

El agente de AI Red Teaming ayuda a automatizar la simulación de la interacción adversaria de su sistema de inteligencia artificial objetivo. Proporciona un conjunto de datos mantenido de indicaciones de inicialización o objetivos de ataque por categorías de riesgo admitidas. Se pueden usar para automatizar el sondeo adversarial directo. Sin embargo, el sondeo adversario directo podría ser detectado fácilmente por las medidas de seguridad existentes en la implementación de su modelo. La aplicación de estrategias de ataque de PyRIT proporciona una conversión adicional que puede ayudar a eludir o subvertir el sistema de inteligencia artificial para inducirlo a producir contenido no deseado.

En el diagrama se muestra que una pregunta directa al sistema de inteligencia artificial sobre cómo robar un banco desencadena una respuesta negativa. Sin embargo, aplicar una estrategia de ataque como voltear todos los caracteres puede ayudar a engañar al modelo para responder a la pregunta.

Además, el AI Red Teaming Agent proporciona a los usuarios un modelo de lenguaje adversarial de gran tamaño y ajustado, dedicado a la tarea de simular ataques adversarios y evaluar respuestas que podrían contener contenido perjudicial, junto con los evaluadores de riesgo y seguridad. La métrica clave para evaluar la posición de riesgo del sistema de inteligencia artificial es La tasa de éxito de ataques (ASR) que calcula el porcentaje de ataques correctos en el número de ataques totales.

Categorías de riesgo admitidas

Las siguientes categorías de riesgo se admiten en el AI Red Teaming Agent de Risk and Safety Evaluations. Solo se admiten escenarios basados en texto.

Categoría de riesgo	Descripción
Contenido odioso e injusto	Contenido odioso e injusto hace referencia a cualquier idioma o imagen que pertenezca al odio hacia o a representaciones desleales de individuos y grupos sociales a lo largo de factores que incluyen, entre otros, la raza, la etnia, la nacionalidad, el género, la orientación sexual, la religión, el estado de inmigración, la capacidad, la apariencia personal y el tamaño del cuerpo. La injusticia se produce cuando los sistemas de inteligencia artificial tratan o representan grupos sociales de forma desigual, creando o contribuyendo a las desigualdades sociales.
Contenido sexual	El contenido sexual incluye lenguaje o imágenes pertenecientes a órganos anatómicos y genitales, relaciones románticas, actos representados en términos eróticos, embarazo, actos sexuales físicos (incluyendo asalto o violencia sexual), prostitución, pornografía y abuso sexual.
Contenido violento	El contenido violento incluye lenguaje o imágenes relacionadas con acciones físicas destinadas a dañar, lastimar, perjudicar o matar a alguien o algo. También incluye descripciones de armas y pistolas (y entidades relacionadas como fabricantes y asociaciones).
Contenido relacionado con autolesiones	El contenido relacionado con las autolesiones incluye lenguaje o imágenes referentes a acciones destinadas a herir, lesionar o dañar el propio cuerpo o suicidarse.

Estrategias de ataque admitidas

Se admiten las siguientes estrategias de ataque en el AI Red Teaming Agent de PyRIT:

Estrategia de ataque	Descripción
AnsiAttack	Utiliza secuencias de escape ANSI para manipular la apariencia y el comportamiento del texto.
AsciiArt	Genera arte visual con caracteres ASCII, que a menudo se usan con fines creativos o de ofuscación.
AsciiSmuggler	Oculta los datos en caracteres ASCII, lo que dificulta la detección.
Atbash	Implementa el cifrado Atbash, un cifrado de sustitución simple donde cada letra se asigna a su inversa.
Base64	Codifica los datos binarios en un formato de texto mediante Base64, que se usa habitualmente para la transmisión de datos.
Binario	Convierte el texto en código binario, que representa los datos de una serie de 0 y 1s.
César	Aplica el cifrado César, un cifrado de sustitución que desplaza los caracteres por un número fijo de posiciones.
CharacterSpace	Modifica el texto agregando espacios entre caracteres, que a menudo se usan para ofuscar.
CharSwap	Intercambia caracteres dentro del texto para crear variaciones o ofuscar el contenido original.
Diacrítico	Agrega marcas diacríticas a los caracteres, cambiando su apariencia y a veces su significado.
Alternar	Voltea los caracteres de delante a atrás, creando un efecto reflejado.
Leetspeak	Transforma el texto en Leetspeak, una forma de codificación que reemplaza las letras por números o símbolos similares.
Código Morse	Codifica el texto en código morse, usando puntos y guiones para representar caracteres.
ROT13	Aplica el cifrado ROT13, un cifrado de sustitución simple que desplaza caracteres por 13 posiciones.
SufijoAdición	Anexa un sufijo adversarial a la indicación
StringJoin	Junta varias cadenas, a menudo utilizadas para concatenación u ofuscación.
UnicodeConfusable	Usa caracteres Unicode que tienen un aspecto similar a los caracteres estándar, lo que crea confusión visual.
Substitución de Unicode	Sustituye los caracteres estándar por equivalentes Unicode, a menudo por ofuscación.
Dirección URL	Codifica el texto en formato de dirección URL
Liberación del dispositivo (jailbreak)	Inserta avisos especialmente diseñados para omitir las medidas de seguridad de inteligencia artificial, conocidas como ataques de avisos insertados por el usuario (UPIA).
Jailbreak indirecto	Inserta indicaciones de ataque en las salidas de herramientas o el contexto devuelto para eludir las medidas de seguridad de inteligencia artificial de manera indirecta, conocidas como ataques indirectos de inyección de indicaciones.
Tensión	Cambia el tiempo de texto, convirtiéndolo específicamente en tenso pasado.
Varios turnos	Ejecuta ataques en varios turnos conversacionales, usando la acumulación de contexto para eludir las medidas de seguridad o provocar comportamientos no intencionados.
Crescendo	Escala gradualmente la complejidad o el riesgo de avisos en turnos sucesivos, sondeando las debilidades en las defensas del agente a través del desafío incremental.

Limitaciones conocidas de AI Red Teaming Agent

Ai Red Teaming Agent tiene varias limitaciones importantes que se deben tener en cuenta al ejecutar e interpretar los resultados de formación de equipos rojos.

La ejecución de red teaming simula escenarios en los que un agente de Foundry se expone directamente a datos confidenciales o a datos de vehículos de ataque cibernético. Dado que estos datos son sintéticos, esto no es representativo de las distribuciones de datos del mundo real.
Las herramientas ficticias solo están habilitadas actualmente para recuperar datos sintéticos y habilitar evaluaciones de formación de equipos rojas. Actualmente no admiten comportamientos simulados, lo que permitiría realizar pruebas más cercanas a una simulación real que lo que se admite actualmente.
Debido a la falta de soporte para el sandboxing completamente bloqueado, la naturaleza adversaria de nuestras evaluaciones de red teaming se controla para evitar el impacto en el mundo real.
Las ejecuciones de red teaming solo representan a la población adversaria y no incluyen ninguna población de observación.
Los ejercicios de equipo rojo utilizan modelos generativos para evaluar las tasas de éxito de ataque (ASR) y pueden ser no deterministas y no predictivos. Por lo tanto, siempre hay una posibilidad de falsos positivos y siempre se recomienda revisar los resultados antes de realizar acciones de mitigación.

Aprende más

Introducción a nuestra documentación sobre cómo ejecutar un examen automatizado de riesgos de seguridad con ai Red Teaming Agent

Obtenga más información sobre las herramientas que usa AI Red Teaming Agent.

Las estrategias más eficaces para la evaluación de riesgos combinan herramientas automatizadas que exponen posibles riesgos con un análisis humano experto para obtener información más detallada. Si su organización acaba de empezar con los equipos rojos de IA, explore los recursos creados por el Equipo Rojo de IA de Microsoft.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-29