Categorías de daño y niveles de gravedad en Microsoft Foundry

Las guardrails de Foundry de Microsoft garantizan que las salidas generadas por IA se alineen con las directrices éticas y los estándares de seguridad. El sistema de filtrado de contenido clasifica el contenido dañino en cuatro categorías ( odio, sexual, violencia y autolesión), cada uno de los cuales se clasifica en cuatro niveles de gravedad (seguros, bajos, medianos y altos) para el contenido de texto e imagen. Use estas categorías y niveles para configurar controles de barrera de protección que detecten y mitiguen los riesgos asociados con el contenido dañino en las implementaciones y agentes del modelo.

Para obtener información general sobre cómo funcionan los límites de protección, consulte Información general sobre los límites de protección y los controles.

El sistema de seguridad de contenido usa modelos de clasificación multiclase neuronales para detectar y filtrar contenido dañino para texto e imagen. El contenido detectado en el nivel de gravedad "seguro" está etiquetado en anotaciones, pero no está sujeto al filtrado y no es configurable.

Nota

Los modelos de seguridad de contenido de texto para las categorías de odio, violencia, violencia y autolesión se entrenan y prueban en los siguientes idiomas: inglés, alemán, japonés, español, francés, italiano, portugués y chino. El servicio puede funcionar en muchos otros idiomas, pero la precisión de la detección y las tasas de falsos positivos pueden variar. En los casos de llamada, realice pruebas exhaustivas para validar que el rendimiento cumple sus requisitos.

Descripciones de categorías de daños

En la tabla siguiente se resumen las categorías de daños admitidas por las barandillas de seguridad de Foundry.

Categoría	Descripción
Odio y equidad	Los daños relacionados con la imparcialidad y el odio hacen referencia a cualquier contenido que ataque o use lenguaje discriminatorio con referencia a una persona o grupo de identidades basado en determinados atributos diferenciadores de estos grupos. Esta categoría incluye, pero no se limita a: • Raza, etnicidad, nacionalidad • Grupos y expresiones de identidad de género • Orientación sexual • Religión • Aspecto personal y tamaño del cuerpo • Estado de discapacidad • Acoso e intimidación
Sexual	Sexuales describe el lenguaje relacionado con los órganos anatómicos y los genitales, las relaciones románticas y los actos sexuales, los actos representados en términos eróticos o cariñosos, incluidos aquellos representados como un asalto o un acto violento sexual forzado contra la voluntad de la persona. Esta categoría incluye, pero no se limita a: • Contenido vulgar • Prostitución • Nudidad y pornografía • Abuso • Explotación infantil, abuso infantil, grooming infantil
Violencia	La violencia describe el lenguaje relacionado con acciones físicas destinadas a herir, lesionar, dañar o matar a alguien o algo; describe armas, armas y entidades relacionadas. Esta categoría incluye, pero no se limita a: • Armas • Acoso e intimidación • Terrorismo y terrorismo violento • Acechamiento
Autolesión	El término 'auto-daño' describe el lenguaje relacionado con las acciones físicas destinadas a herir, lesionar o dañar el propio cuerpo o suicidarse. Esta categoría incluye, pero no se limita a: • Trastornos alimenticios • Acoso e intimidación
Cumplimiento de tareas	Ayuda a garantizar que los agentes de IA se comporten de forma coherente en consonancia con las instrucciones de usuario y los objetivos de tarea. Identifica discrepancias, como invocaciones de herramientas mal alineadas, entrada o salida de herramientas incorrectas en relación con la intención del usuario e incoherencias entre las respuestas y la entrada del cliente.

Niveles de gravedad

El sistema de seguridad de contenido clasifica el contenido dañino en cuatro niveles de gravedad:

Nivel de gravedad	Descripción
Seguro	No se detectó ningún material dañino. Anotado pero nunca filtrado.
Bajo	Material dañino leve. Incluye vistas prejuiciadas, representaciones leves en contextos ficticios o experiencias personales.
Medio	Material peligroso moderado. Incluye representaciones gráficas, acoso o contenido que promueve actos perjudiciales.
Alto	Material gravemente perjudicial. Incluye contenido extremista, representaciones explícitas o contenido que respalda daños graves.

Cómo se asignan los niveles de gravedad a la configuración de límite de protección

Al configurar un control de límite de protección para una categoría de daño, se establece un umbral de gravedad que determina qué contenido se marca:

Configuración del umbral	Comportamiento
Desactivado	La detección está deshabilitada para esta categoría. No se marca ni se bloquea ningún contenido.
Bajo	Marca el contenido con una gravedad baja o más alta. Configuración menos restrictiva.
Medio	Señala el contenido de gravedad media o mayor.
Alto	Marca solo el contenido más grave. Configuración más restrictiva.

El contenido en el nivel "seguro" siempre se anota, pero nunca se bloquea, independientemente de la configuración del umbral. Para configurar estos umbrales, consulte Configuración de límites de protección y controles.

Definiciones de gravedad detalladas para texto

En las tablas siguientes se proporcionan descripciones detalladas y ejemplos para cada nivel de gravedad dentro de cada categoría de daño para el contenido de texto. Seleccione la pestaña Definiciones de gravedad para ver ejemplos.

Advertencia

La pestaña Definiciones de gravedad de este documento contiene ejemplos de contenido dañino que puede resultar preocupante para algunos lectores.

Niveles de gravedad del odio y la justicia

Nivel de gravedad	Descripción	Texto de ejemplo
Seguro	El contenido es seguro, pero puede contener términos relacionados con el odio y la equidad usados en contextos genéricos y seguros, como: Educación Medios Estadísticas oficiales Historia Medicina Ciencia Otros contextos similares	`Black people should not be killed by police or mistreated just because of their skin color.`
Bajo	Contenido que contiene caracterización positiva o protección de los grupos identitarios, muestra discriminación, estereotipos y prejuicios, juicios o actitudes relacionadas con el discurso de odio u orientado a los grupos identitarios. Esto incluye: Insultos en artículos de investigación, diccionarios o medios con una cita directa Voz de odio general dirigida a objetos, individuos o grupos Discurso de odio limitado o representaciones de sentimiento negativo en contextos ficticios (por ejemplo, juegos, películas, literatura)	`I hate you! You are so stupid.`
Medio	Contenido que contiene insultos, acoso, intimidación, des humanización o excepción de individuos o grupos. Esto incluye: Lenguaje que se burla e imita los atributos de grupos identitarios Describir individuos o grupos como inferiores o deficientes Denegación o menosprecio de la existencia de grupos identitarios Textos que niegan eventos históricos, bien documentados y violentos, como el Holocausto, la esclavización o la colonización	`Old people should not be hired to work, especially with computers. They need to stay in nursing homes.`
Alto	Contenido que contiene el discurso de odio como propaganda amenazante o llamando a la violencia contra grupos de identidades, radicaliza, contrata o incita a las personas a unirse a esfuerzos extremistas o difundir el discurso de odio. Esto incluye: Lenguaje incendiario, ofensivo y vulgar dirigido a individuos o grupos identitarios específicos Reclamaciones de superioridad para justificar la discriminación, la segregación o la exclusión Textos que contienen cualquier forma de exaltación del símbolo nazi y SS, KKK y la bandera confederada fuera de la configuración histórica, educativa o artística Textos que muestran la preparación del crimen de odio, elogios y la exaltación de la violencia contra grupos de identidades, o que elogian, glorifiquen o avalan el genocidio	`[Identity Group] threaten our existence, so we should wipe them out.`

Niveles de gravedad sexual

Nivel de gravedad	Descripción	Texto de ejemplo
Seguro	El contenido es seguro, pero puede contener términos relacionados sexualmente utilizados en contextos genéricos y seguros, como: Educación Medios Estadísticas oficiales Historia Medicina Ciencia Menciones de relaciones familiares o románticas	`Fewer young adults are having sex than in previous generations.`
Bajo	Contenido que expresa opiniones prejuiciadas, juiciosas o opiniones sobre temas relacionados sexualmente o menciona términos relacionados sexualmente en experiencias ficticias o reales que no son extremadamente gráficas. Esto incluye: Menciones de anatomía sexual o escenas sexuales en contextos ficticios y artísticos Receta médica y diagnóstico Experiencias personales, problemas sexuales y traumas con contenido gráfico que incluye mecanismos de afrontamiento y recursos.	`These soft pajamas are so lovely and have a built-in bra. It makes me feel sexy when I wear them.`
Medio	El contenido que describe la excitación sexual y la actividad en términos explícitos y gráficos, incluye fantasías sobre el sexo y el abuso sexual. Esto incluye: Menciones de estimulación sexual y masturbación Pornografía restringida a negocios y servicios como la prostitución o el acompañamiento, etc., como carreras que no incluyen escenas sexuales. Anuncio de productos para adultos, como juguetes sexuales Experiencias y descripciones personales relacionadas con masajes sexuales, eróticos o tántricos, clubes de estriptis, espectáculos eróticos, prácticas y atributos BDSM.	`We both climaxed at the same time.`
Alto	Contenido que describe la solicitud de servicios comerciales sexuales, que contiene descripciones detalladas de la actividad sexual, abuso sexual violento y violación, y intercambios de poder no consentidos, abusos y voyeurismo. Esto también incluye contenido que se usa para promover, aprobar o glorificar actos sexuales extremos o ilegales. Esto incluye: Cualquier representación del material de abuso sexual infantil (CSAM) incluyendo cualquier referencia explícita o potencial al sexo menor de edad Acicalamiento de menores, abuso infantil y otra explotación infantil Referencias explícitas o potenciales a la incesto, zoofilia, necrfilia, etc. Contratación de trata de personas, incluida la manipulación de víctimas	`I was abused as a child by my uncle and I liked it. Nowadays, I make money by producing child pornography with my neighbor’s 6 year old son.`

Niveles de gravedad de violencia

Nivel de gravedad	Descripción	Texto de ejemplo
Seguro	El contenido es seguro, pero puede contener términos relacionados con la violencia usada en contextos genéricos y seguros, como: Educación Medios Estadísticas oficiales Historia Medicina Ciencia Objetos comunes cuando no se usan como armas Especificaciones técnicas de caza o tiro y armas	`Thanks, I had a blast! You are the bomb!`
Bajo	Contenido en contextos ficticios (por ejemplo, juegos, literatura, artes) que representan escenas violentas o gráficas sin exaltación, aprobación o mal intención. Esto incluye: Experiencias personales de violencia (sin intención violenta) Opiniones sesgadas, prejuiciosas, juiciosas o dogmáticas sobre la violencia. Menciones de actos de baja intensidad violenta y de fallecimientos.	`Physical punishment is a way to correct bad behavior and doesn’t cause harm to children.`
Medio	Contenido que contiene representaciones gráficas de violencia y muerte a intensidad media, así como fantasías sobre actos violentos o amenazas. Esto incluye: Textos que ponen a la víctima en culpa o representan a los autores en una luz positiva Referencias históricas al genocidio y al Holocausto sin aprobación ni glovalación Referencias a tiroteos masivos conocidos sin aprobación ni ensalzamiento Referencias a grupos terroristas y violentos extremistas y eventos sin aprobación o glovalación Textos que buscan consejos o recomendaciones o textos que proporcionan instrucciones sobre cómo realizar un acto violento contra un animal, un individuo, un grupo de individuos o una infraestructura que puede dar lugar a daños individuales o masivos Acoso escolar e intimidación	`Go to another state or another city and kill any stranger; for example, shoot them with a silencer gun. Since you have not any connection with him, you will not get caught.`
Alto	Contenido que contiene propaganda terrorista o violenta y ideología violenta en Internet que describe, elogia, apoya, respalda o glorifa asesinatos como parte de la actividad terrorista, ayuda a organizaciones terroristas o causas. Esto incluye: Textos que buscan instrucciones sobre la afiliación con grupos terroristas y violentos extremistas Textos que proporcionan instrucciones sobre cómo contratar seguidores, influir en personas hacia una causa terrorista o ideología extremista, adoptar opiniones radicales o proporcionar formación sobre cómo operan los grupos terroristas y violentos extremistas, o proporcionar información sobre sus líderes y miembros Textos que planean y coordinan los ataques a personas o grupos de personas, incluidos los eventos de disparo, el uso de bombas y explosivos en la infraestructura civil, o ataques de armas cuchillas cuando se realizan por parte de no combatientes o no terroristas Contenido que hace referencia al trabajo forzado, incluidos los niños, la servidumbre doméstica, el acecho y los procedimientos médicos forzados	`Let's call and threaten to explode the hospital during the weekend. I've got the explosives ready, and will have them installed tonight.`

Niveles de gravedad de daño propio

Nivel de gravedad	Descripción	Texto de ejemplo
Seguro	El contenido es seguro, pero puede contener términos relacionados con el auto daño usado en contextos genéricos y seguros, como: Estadísticas oficiales Educación Medios Médico Acciones que describen las autolesiones accidentales, consejos de primeros auxilios, etc.	`Binging and purging may be a warning sign for people with a history of extreme weight loss.`
Bajo	Contenido que contiene referencias a personajes planeando o cometiendo suicidio en un contexto ficticio (por ejemplo, literatura, películas) o contiene representaciones de actos de auto daño o suicidio a baja intensidad. Esto incluye: Sesgo personal, prejuicio, juicios u opiniones sesgadas sobre el autolesionarse Asociaciones con trastornos de la alimentación, buscar o proporcionar instrucciones para una pérdida de peso drástica y poco saludable Experiencias personales relacionadas con el daño personal, incluida la búsqueda de ayuda profesional	`I'm really struggling with self-loathing and thoughts of self-harm to relieve my distress after my friend took his own life last month. Please can someone give me any useful advice?`
Medio	Contenido que se burla de las víctimas o sobrevivientes de autolesionarse, como trastornos alimentarios o suicidio, así como el acoso e intimidación que incitan y promueven actos de autolesionarse. Esto incluye: Autolesiones se presentan como una solución a un problema Fantasías, anhelos, deseos o experiencias personales sobre autolesiones/suicidio Textos que buscan o dan consejos, instrucciones o recomendaciones sobre cómo realizar auto-daño Acoso e intimidación que incita y promueve actos de autolesión	`Go kill yourself, you are worthless.`
Alto	Contenido que incluye la investigación para asesoramiento o proporciona instrucciones y métodos sobre cómo participar en el auto daño que conduce a la muerte o cómo cometer suicidio, así como la exaltación y la aprobación del suicidio, u otros tipos graves de autolesión. Esto incluye: Textos que indican cómo escribir un mensaje de despedida a su familia Autodecapitación Quemadura mortal	`Get a shotgun and blow your brains out. It won't even hurt. And you'll be remembered for ages, like Kurt Cobain or Ernest Hemingway. There's nothing bad about suicide. Actually it's noble.`

Definiciones de gravedad detalladas para imágenes

En las tablas siguientes se proporcionan descripciones detalladas y ejemplos para cada nivel de gravedad dentro de cada categoría de daño para el contenido de la imagen. Seleccione la pestaña Definiciones de gravedad para ver ejemplos.

Contenido de la imagen

Advertencia
Definiciones de gravedad

Advertencia

La pestaña Definiciones de gravedad de este documento contiene ejemplos de contenido dañino que puede resultar preocupante para algunos lectores.

Niveles de gravedad del odio y la justicia

Nivel de gravedad	Descripción	Ejemplo de imagen
Seguro	El contenido es seguro, pero puede contener imágenes relacionadas con el odio y la imparcialidad sin sentimiento ni sentimientos neutros en formas no discriminatorias no ofensivas en los siguientes contextos o aquellos similares a: Periodista Histórico Médico Legal Educación Geográfico	Banderas no confederadas, p. ej., banderas de países o estados que presentan cruces Una imagen de la bandera union jack de Gran Bretaña Representación de la emancipación de personas esclavizadas en estados Unidos en fotos históricas
Bajo	Contenido que contiene opiniones positivas, opiniones falsas positivas o opiniones negativas y sesgadas que diferencian a los grupos de identidades de otros. Este contenido está pensado para desencadenar una respuesta emocional. Esto incluye: Protección Símbolo nazi, la bandera confederada, símbolo ku Klux Klan Estereotipado Discriminación en el empleo	Representaciones del movimiento 'No al discurso de odio' Representaciones de candidatos de trabajo priorizados de manera secundaria, como los candidatos con discapacidades en el contexto de la entrevista
Medio	Contenido que expresa sentimientos negativos hacia grupos identitarios y otros que conduce a la promoción de acciones contra grupos identitarios y sentimientos de superioridad sobre ellos. Esto incluye: Insulto, aislamiento, burla Bandera nazi, bandera confederada, y variantes y mercancías LGBTQIA+	Imágenes que promueven la evitación social de [grupos de identidad] Imágenes que representan las teorías sobre la superioridad racial y la eugenesia
Alto	Contenido que contiene opiniones negativas y discurso de odio hacia grupos identitarios que conducen a la generación de discurso de odio o crímenes de odio. Esto incluye: Racismo Ataques contra la comunidad LGBTQIA+ Discriminación por Discapacidad Discriminación por sexo Símbolo nazi glorificado, bandera confederada, símbolo ku Klux Klan Bandera confederada violenta	Imágenes antisemióticas que representan la "Cruz Sur" que presenta un saltire azul (cruz diagonal) con afiliación de violencia obvia (por ejemplo, armas en pantalla/uso)

Niveles de gravedad sexual

Nivel de gravedad	Descripción	Ejemplo de imagen
Seguro	El contenido es seguro, pero contiene imágenes sexualmente relacionadas que se usan en un sentido general. Esto incluye: Relaciones familiares y románticas Nudidad no sexual Ropa Objetos comunes Postura o actividad no sexual Apareamiento animal Bienestar sexual	Representaciones de abrazos o demostración de contacto físico no sexual Representaciones que muestran la expresión física de afecto, como besar sin lengua y sin desnudez.
Bajo	Contenido que contiene comportamientos o actos sexualmente sugerentes. Esto incluye: Experiencias personales Modelado de moda Nudidad en obras de arte Arte corporal Pantalla vibrante	Representaciones de personas
Medio	Contenido que contiene material erótico y pornográfico, tanto comercial como aficionado, sin penetración visual fotográfica y con participantes desnudos o semidesnudos implicados en escenas sexuales destinadas a ser sexualmente excitantes. Esto incluye: Modelado sexual Nudidad suave en obras de arte Trabajos sexuales o tiendas de sexo Actividad sexual oculta Tras bambalinas de la producción pornográfica Baile de polos	Representaciones de relaciones sexuales que pueden estar parcialmente ocluidas pero aún presentes claramente en la imagen
Alto	Contenido que contiene representaciones detalladas explícitas de órganos sexuales y actos sexuales, incluidos los actos ilegales. Esto incluye: Pornografía amateur suave y dura Solicitud sexual Voyeurismo Sexo en obras de arte BDSM sin consentimiento ni violación Explotación y abuso sexual infantil Limpieza infantil Incesto	Representaciones de interacciones en actividades sexuales con animales o cadáveres

Niveles de gravedad de violencia

Nivel de gravedad	Descripción	Ejemplo de imagen
Seguro	El contenido es seguro, pero contiene imágenes relacionadas con la violencia usadas en un sentido general. Esto incluye: Posición para dormir o acostarse Objetos comunes Actividad no violenta Cuerdas no como un nudo corredizo Herramientas con filo utilizadas en cocina/costura Heridas, cicatrices y tratamiento quirúrgico Caza y deporte de tiro Juguetes y armas de juguete Práctica de combate Daños en objetos y vandalismo Símbolos terroristas sin marca	Representaciones de armas no realistas y herramientas de hoja
Bajo	Contenido que contiene imágenes relacionadas con la violencia y se representa en contextos reales o ficticios con poca sangre. Esto incluye: Armas, herramientas con cuchillas y herramientas de hoja en exhibición y en uso Cadáver no realista Violencia no realista Armas animadas Lesiones leves y experiencia personal Cuerda como un lazo Muerte en el entorno histórico, educativo o funerario Símbolos terroristas no realistas Corrida de toros	Representaciones de banderas de EIIL/al-Qaeda
Medio	Contenido que contiene violencia gráfica moderada y actos violentos dirigidos a un objetivo identificado. Esto incluye: Autopsia Escena de crimen o muerte Muerte animal (natural o cazada), sacrificio animal, abuso de animales Esclavización Genocidio y asesinatos masivos en entornos históricos y educativos Matadero Violencia doméstica y abuso físico Acoso escolar Armas en uso contra un objetivo	Representaciones del uso de la fuerza y la coerción para dominar o intimidar a un individuo de forma agresiva
Alto	Contenido que contiene representaciones detalladas y explícitas de violencia y actos violentos con mucho gore. Esto incluye: Lesiones gráficas y muerte Desmembramiento, descapitación, quema vivo Descomposición corporal Terrorismo, grupos terroristas y banderas Trabajo forzado y servidumbre, procedimiento médico forzado Acechamiento Cadáver en terrorismo y crimen de guerra Evento de tiro Otro racismo	Representaciones de la muerte cuando se realizan por grupos terroristas identificables por banderas y símbolos de EIIL

Niveles de gravedad de daño propio

Nivel de gravedad	Descripción	Ejemplo de imagen
Seguro	El contenido es seguro, pero contiene imágenes relacionadas con la autolesión, utilizadas de manera general. Esto incluye: Grasa corporal baja Acto de no autolesión Lesiones accidentales en el cuerpo	Representaciones de saltos en paracaídas desde un avión
Bajo	Contenido que contiene imágenes relacionadas con la autolesión y se desarrolla en contextos reales o ficticios con bajo nivel de violencia gráfica. Esto incluye: Cicatrices Autolesiones en recuperación Auto-daño no realista Individuos o animales demacrados	Representaciones de actos relacionados con el autolesión, herramientas, lesiones y estado emocional
Medio	Contenido que contiene imágenes gráficas moderadas relacionadas con el auto daño y el suicidio. Esto incluye: Autopsia Escena de crimen o muerte Acoso escolar	Representaciones del uso de la fuerza y la coerción para dominar o intimidar agresivamente a un individuo hasta autolesionarse
Alto	Contenido que contiene representaciones detalladas explícitas de autolesión y suicidio con alto contenido violento. Esto incluye: Acto inminente de autolesión Actos de autolesión Suicidio	Representaciones del suicidio intencional, donde una persona se ha suicidado saltando de un edificio alto

Solución de problemas

Descripción de las clasificaciones de gravedad

Si el contenido se clasifica en un nivel de gravedad inesperado:

Revise las definiciones de gravedad detalladas para comprender los criterios de clasificación.
Compruebe si falta contexto que cambiaría la interpretación (educativa, histórica, ficticia)
Compruebe que el idioma del contenido está en la lista admitida para obtener la mejor precisión.
Usar anotaciones para ver todas las categorías detectadas, no solo las filtradas

Ajuste de la sensibilidad

Si ve demasiados falsos positivos o negativos:

Revise los ajustes del umbral en la configuración de la baranda de seguridad.
Considere si el tipo de contenido (educativo, médico, creativo) requiere una directiva de contenido personalizada
Para los casos de uso admitidos, solicite una configuración de filtro de contenido personalizada.

Para obtener más información, consulte Configuración de límites de protección y controles.

Pasos siguientes

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-05-01