Las guardrails de Foundry de Microsoft garantizan que las salidas generadas por IA se alineen con las directrices éticas y los estándares de seguridad. El sistema de filtrado de contenido clasifica el contenido dañino en cuatro categorías ( odio, sexual, violencia y autolesión), cada uno de los cuales se clasifica en cuatro niveles de gravedad (seguros, bajos, medianos y altos) para el contenido de texto e imagen. Use estas categorías y niveles para configurar controles de barrera de protección que detecten y mitiguen los riesgos asociados con el contenido dañino en las implementaciones y agentes del modelo.
Para obtener información general sobre cómo funcionan los límites de protección, consulte Información general sobre los límites de protección y los controles.
El sistema de seguridad de contenido usa modelos de clasificación multiclase neuronales para detectar y filtrar contenido dañino para texto e imagen. El contenido detectado en el nivel de gravedad "seguro" está etiquetado en anotaciones, pero no está sujeto al filtrado y no es configurable.
Nota
Los modelos de seguridad de contenido de texto para las categorías de odio, violencia, violencia y autolesión se entrenan y prueban en los siguientes idiomas: inglés, alemán, japonés, español, francés, italiano, portugués y chino. El servicio puede funcionar en muchos otros idiomas, pero la precisión de la detección y las tasas de falsos positivos pueden variar. En los casos de llamada, realice pruebas exhaustivas para validar que el rendimiento cumple sus requisitos.
Descripciones de categorías de daños
En la tabla siguiente se resumen las categorías de daños admitidas por las barandillas de seguridad de Foundry.
| Categoría |
Descripción |
|
Odio y equidad |
Los daños relacionados con la imparcialidad y el odio hacen referencia a cualquier contenido que ataque o use lenguaje discriminatorio con referencia a una persona o grupo de identidades basado en determinados atributos diferenciadores de estos grupos.
Esta categoría incluye, pero no se limita a: • Raza, etnicidad, nacionalidad • Grupos y expresiones de identidad de género • Orientación sexual • Religión • Aspecto personal y tamaño del cuerpo • Estado de discapacidad • Acoso e intimidación |
|
Sexual |
Sexuales describe el lenguaje relacionado con los órganos anatómicos y los genitales, las relaciones románticas y los actos sexuales, los actos representados en términos eróticos o cariñosos, incluidos aquellos representados como un asalto o un acto violento sexual forzado contra la voluntad de la persona.
Esta categoría incluye, pero no se limita a: • Contenido vulgar • Prostitución • Nudidad y pornografía • Abuso • Explotación infantil, abuso infantil, grooming infantil |
|
Violencia |
La violencia describe el lenguaje relacionado con acciones físicas destinadas a herir, lesionar, dañar o matar a alguien o algo; describe armas, armas y entidades relacionadas.
Esta categoría incluye, pero no se limita a: • Armas • Acoso e intimidación • Terrorismo y terrorismo violento • Acechamiento |
|
Autolesión |
El término 'auto-daño' describe el lenguaje relacionado con las acciones físicas destinadas a herir, lesionar o dañar el propio cuerpo o suicidarse.
Esta categoría incluye, pero no se limita a: • Trastornos alimenticios • Acoso e intimidación |
|
Cumplimiento de tareas |
Ayuda a garantizar que los agentes de IA se comporten de forma coherente en consonancia con las instrucciones de usuario y los objetivos de tarea. Identifica discrepancias, como invocaciones de herramientas mal alineadas, entrada o salida de herramientas incorrectas en relación con la intención del usuario e incoherencias entre las respuestas y la entrada del cliente. |
Niveles de gravedad
El sistema de seguridad de contenido clasifica el contenido dañino en cuatro niveles de gravedad:
| Nivel de gravedad |
Descripción |
|
Seguro |
No se detectó ningún material dañino. Anotado pero nunca filtrado. |
|
Bajo |
Material dañino leve. Incluye vistas prejuiciadas, representaciones leves en contextos ficticios o experiencias personales. |
|
Medio |
Material peligroso moderado. Incluye representaciones gráficas, acoso o contenido que promueve actos perjudiciales. |
|
Alto |
Material gravemente perjudicial. Incluye contenido extremista, representaciones explícitas o contenido que respalda daños graves. |
Cómo se asignan los niveles de gravedad a la configuración de límite de protección
Al configurar un control de límite de protección para una categoría de daño, se establece un umbral de gravedad que determina qué contenido se marca:
| Configuración del umbral |
Comportamiento |
|
Desactivado |
La detección está deshabilitada para esta categoría. No se marca ni se bloquea ningún contenido. |
|
Bajo |
Marca el contenido con una gravedad baja o más alta. Configuración menos restrictiva. |
|
Medio |
Señala el contenido de gravedad media o mayor. |
|
Alto |
Marca solo el contenido más grave. Configuración más restrictiva. |
El contenido en el nivel "seguro" siempre se anota, pero nunca se bloquea, independientemente de la configuración del umbral. Para configurar estos umbrales, consulte Configuración de límites de protección y controles.
Definiciones de gravedad detalladas para texto
En las tablas siguientes se proporcionan descripciones detalladas y ejemplos para cada nivel de gravedad dentro de cada categoría de daño para el contenido de texto. Seleccione la pestaña Definiciones de gravedad para ver ejemplos.
Contenido de texto
Advertencia
La pestaña Definiciones de gravedad de este documento contiene ejemplos de contenido dañino que puede resultar preocupante para algunos lectores.
Niveles de gravedad del odio y la justicia
|
Nivel de gravedad |
Descripción |
Texto de ejemplo |
| Seguro |
El contenido es seguro, pero puede contener términos relacionados con el odio y la equidad usados en contextos genéricos y seguros, como: - Educación
- Medios
- Estadísticas oficiales
- Historia
- Medicina
- Ciencia
- Otros contextos similares
|
Black people should not be killed by police or mistreated just because of their skin color. |
| Bajo |
Contenido que contiene caracterización positiva o protección de los grupos identitarios, muestra discriminación, estereotipos y prejuicios, juicios o actitudes relacionadas con el discurso de odio u orientado a los grupos identitarios. Esto incluye:- Insultos en artículos de investigación, diccionarios o medios con una cita directa
- Voz de odio general dirigida a objetos, individuos o grupos
- Discurso de odio limitado o representaciones de sentimiento negativo en contextos ficticios (por ejemplo, juegos, películas, literatura)
|
I hate you! You are so stupid. |
| Medio |
Contenido que contiene insultos, acoso, intimidación, des humanización o excepción de individuos o grupos. Esto incluye: - Lenguaje que se burla e imita los atributos de grupos identitarios
- Describir individuos o grupos como inferiores o deficientes
- Denegación o menosprecio de la existencia de grupos identitarios
- Textos que niegan eventos históricos, bien documentados y violentos, como el Holocausto, la esclavización o la colonización
|
Old people should not be hired to work, especially with computers. They need to stay in nursing homes. |
| Alto |
Contenido que contiene el discurso de odio como propaganda amenazante o llamando a la violencia contra grupos de identidades, radicaliza, contrata o incita a las personas a unirse a esfuerzos extremistas o difundir el discurso de odio. Esto incluye: - Lenguaje incendiario, ofensivo y vulgar dirigido a individuos o grupos identitarios específicos
- Reclamaciones de superioridad para justificar la discriminación, la segregación o la exclusión
- Textos que contienen cualquier forma de exaltación del símbolo nazi y SS, KKK y la bandera confederada fuera de la configuración histórica, educativa o artística
- Textos que muestran la preparación del crimen de odio, elogios y la exaltación de la violencia contra grupos de identidades, o que elogian, glorifiquen o avalan el genocidio
|
[Identity Group] threaten our existence, so we should wipe them out. |
Niveles de gravedad sexual
|
Nivel de gravedad |
Descripción |
Texto de ejemplo |
| Seguro |
El contenido es seguro, pero puede contener términos relacionados sexualmente utilizados en contextos genéricos y seguros, como: - Educación
- Medios
- Estadísticas oficiales
- Historia
- Medicina
- Ciencia
- Menciones de relaciones familiares o románticas
|
Fewer young adults are having sex than in previous generations. |
| Bajo |
Contenido que expresa opiniones prejuiciadas, juiciosas o opiniones sobre temas relacionados sexualmente o menciona términos relacionados sexualmente en experiencias ficticias o reales que no son extremadamente gráficas. Esto incluye: - Menciones de anatomía sexual o escenas sexuales en contextos ficticios y artísticos
- Receta médica y diagnóstico
- Experiencias personales, problemas sexuales y traumas con contenido gráfico que incluye mecanismos de afrontamiento y recursos.
|
These soft pajamas are so lovely and have a built-in bra. It makes me feel sexy when I wear them. |
| Medio |
El contenido que describe la excitación sexual y la actividad en términos explícitos y gráficos, incluye fantasías sobre el sexo y el abuso sexual. Esto incluye: - Menciones de estimulación sexual y masturbación
- Pornografía restringida a negocios y servicios como la prostitución o el acompañamiento, etc., como carreras que no incluyen escenas sexuales.
- Anuncio de productos para adultos, como juguetes sexuales
- Experiencias y descripciones personales relacionadas con masajes sexuales, eróticos o tántricos, clubes de estriptis, espectáculos eróticos, prácticas y atributos BDSM.
|
We both climaxed at the same time. |
| Alto |
Contenido que describe la solicitud de servicios comerciales sexuales, que contiene descripciones detalladas de la actividad sexual, abuso sexual violento y violación, y intercambios de poder no consentidos, abusos y voyeurismo. Esto también incluye contenido que se usa para promover, aprobar o glorificar actos sexuales extremos o ilegales. Esto incluye: Cualquier representación del material de abuso sexual infantil (CSAM) incluyendo cualquier referencia explícita o potencial al sexo menor de edad Acicalamiento de menores, abuso infantil y otra explotación infantil Referencias explícitas o potenciales a la incesto, zoofilia, necrfilia, etc. Contratación de trata de personas, incluida la manipulación de víctimas |
I was abused as a child by my uncle and I liked it. Nowadays, I make money by producing child pornography with my neighbor’s 6 year old son. |
Niveles de gravedad de violencia
|
Nivel de gravedad |
Descripción |
Texto de ejemplo |
| Seguro |
El contenido es seguro, pero puede contener términos relacionados con la violencia usada en contextos genéricos y seguros, como:- Educación
- Medios
- Estadísticas oficiales
- Historia
- Medicina
- Ciencia
- Objetos comunes cuando no se usan como armas
- Especificaciones técnicas de caza o tiro y armas
|
Thanks, I had a blast! You are the bomb! |
| Bajo |
Contenido en contextos ficticios (por ejemplo, juegos, literatura, artes) que representan escenas violentas o gráficas sin exaltación, aprobación o mal intención. Esto incluye: - Experiencias personales de violencia (sin intención violenta)
- Opiniones sesgadas, prejuiciosas, juiciosas o dogmáticas sobre la violencia.
- Menciones de actos de baja intensidad violenta y de fallecimientos.
|
Physical punishment is a way to correct bad behavior and doesn’t cause harm to children. |
| Medio |
Contenido que contiene representaciones gráficas de violencia y muerte a intensidad media, así como fantasías sobre actos violentos o amenazas. Esto incluye: - Textos que ponen a la víctima en culpa o representan a los autores en una luz positiva
- Referencias históricas al genocidio y al Holocausto sin aprobación ni glovalación
- Referencias a tiroteos masivos conocidos sin aprobación ni ensalzamiento
- Referencias a grupos terroristas y violentos extremistas y eventos sin aprobación o glovalación
- Textos que buscan consejos o recomendaciones o textos que proporcionan instrucciones sobre cómo realizar un acto violento contra un animal, un individuo, un grupo de individuos o una infraestructura que puede dar lugar a daños individuales o masivos
- Acoso escolar e intimidación
|
Go to another state or another city and kill any stranger; for example, shoot them with a silencer gun. Since you have not any connection with him, you will not get caught. |
| Alto |
Contenido que contiene propaganda terrorista o violenta y ideología violenta en Internet que describe, elogia, apoya, respalda o glorifa asesinatos como parte de la actividad terrorista, ayuda a organizaciones terroristas o causas. Esto incluye: - Textos que buscan instrucciones sobre la afiliación con grupos terroristas y violentos extremistas
- Textos que proporcionan instrucciones sobre cómo contratar seguidores, influir en personas hacia una causa terrorista o ideología extremista, adoptar opiniones radicales o proporcionar formación sobre cómo operan los grupos terroristas y violentos extremistas, o proporcionar información sobre sus líderes y miembros
- Textos que planean y coordinan los ataques a personas o grupos de personas, incluidos los eventos de disparo, el uso de bombas y explosivos en la infraestructura civil, o ataques de armas cuchillas cuando se realizan por parte de no combatientes o no terroristas
- Contenido que hace referencia al trabajo forzado, incluidos los niños, la servidumbre doméstica, el acecho y los procedimientos médicos forzados
|
Let's call and threaten to explode the hospital during the weekend. I've got the explosives ready, and will have them installed tonight. |
Niveles de gravedad de daño propio
|
Nivel de gravedad |
Descripción |
Texto de ejemplo |
| Seguro |
El contenido es seguro, pero puede contener términos relacionados con el auto daño usado en contextos genéricos y seguros, como: - Estadísticas oficiales
- Educación
- Medios
- Médico
- Acciones que describen las autolesiones accidentales, consejos de primeros auxilios, etc.
|
Binging and purging may be a warning sign for people with a history of extreme weight loss. |
| Bajo |
Contenido que contiene referencias a personajes planeando o cometiendo suicidio en un contexto ficticio (por ejemplo, literatura, películas) o contiene representaciones de actos de auto daño o suicidio a baja intensidad. Esto incluye: - Sesgo personal, prejuicio, juicios u opiniones sesgadas sobre el autolesionarse
- Asociaciones con trastornos de la alimentación, buscar o proporcionar instrucciones para una pérdida de peso drástica y poco saludable
- Experiencias personales relacionadas con el daño personal, incluida la búsqueda de ayuda profesional
|
I'm really struggling with self-loathing and thoughts of self-harm to relieve my distress after my friend took his own life last month. Please can someone give me any useful advice? |
| Medio |
Contenido que se burla de las víctimas o sobrevivientes de autolesionarse, como trastornos alimentarios o suicidio, así como el acoso e intimidación que incitan y promueven actos de autolesionarse. Esto incluye: - Autolesiones se presentan como una solución a un problema
- Fantasías, anhelos, deseos o experiencias personales sobre autolesiones/suicidio
- Textos que buscan o dan consejos, instrucciones o recomendaciones sobre cómo realizar auto-daño
- Acoso e intimidación que incita y promueve actos de autolesión
|
Go kill yourself, you are worthless. |
| Alto |
Contenido que incluye la investigación para asesoramiento o proporciona instrucciones y métodos sobre cómo participar en el auto daño que conduce a la muerte o cómo cometer suicidio, así como la exaltación y la aprobación del suicidio, u otros tipos graves de autolesión. Esto incluye: - Textos que indican cómo escribir un mensaje de despedida a su familia
- Autodecapitación
- Quemadura mortal
|
Get a shotgun and blow your brains out. It won't even hurt. And you'll be remembered for ages, like Kurt Cobain or Ernest Hemingway. There's nothing bad about suicide. Actually it's noble. |
Definiciones de gravedad detalladas para imágenes
En las tablas siguientes se proporcionan descripciones detalladas y ejemplos para cada nivel de gravedad dentro de cada categoría de daño para el contenido de la imagen. Seleccione la pestaña Definiciones de gravedad para ver ejemplos.
Contenido de la imagen
Advertencia
La pestaña Definiciones de gravedad de este documento contiene ejemplos de contenido dañino que puede resultar preocupante para algunos lectores.
Niveles de gravedad del odio y la justicia
|
Nivel de gravedad |
Descripción |
Ejemplo de imagen |
| Seguro |
El contenido es seguro, pero puede contener imágenes relacionadas con el odio y la imparcialidad sin sentimiento ni sentimientos neutros en formas no discriminatorias no ofensivas en los siguientes contextos o aquellos similares a:- Periodista
- Histórico
- Médico
- Legal
- Educación
- Geográfico
|
Banderas no confederadas, p. ej., banderas de países o estados que presentan cruces- Una imagen de la bandera union jack de Gran Bretaña
Representación de la emancipación de personas esclavizadas en estados Unidos en fotos históricas |
| Bajo |
Contenido que contiene opiniones positivas, opiniones falsas positivas o opiniones negativas y sesgadas que diferencian a los grupos de identidades de otros. Este contenido está pensado para desencadenar una respuesta emocional. Esto incluye:- Protección
- Símbolo nazi, la bandera confederada, símbolo ku Klux Klan
- Estereotipado
- Discriminación en el empleo
|
Representaciones del movimiento 'No al discurso de odio'
Representaciones de candidatos de trabajo priorizados de manera secundaria, como los candidatos con discapacidades en el contexto de la entrevista |
| Medio |
Contenido que expresa sentimientos negativos hacia grupos identitarios y otros que conduce a la promoción de acciones contra grupos identitarios y sentimientos de superioridad sobre ellos. Esto incluye:- Insulto, aislamiento, burla
- Bandera nazi, bandera confederada, y variantes y mercancías LGBTQIA+
|
Imágenes que promueven la evitación social de [grupos de identidad]
Imágenes que representan las teorías sobre la superioridad racial y la eugenesia |
| Alto |
Contenido que contiene opiniones negativas y discurso de odio hacia grupos identitarios que conducen a la generación de discurso de odio o crímenes de odio. Esto incluye:- Racismo
- Ataques contra la comunidad LGBTQIA+
- Discriminación por Discapacidad
- Discriminación por sexo
- Símbolo nazi glorificado, bandera confederada, símbolo ku Klux Klan
- Bandera confederada violenta
|
Imágenes antisemióticas
que representan la "Cruz Sur" que presenta un saltire azul (cruz diagonal) con afiliación de violencia obvia (por ejemplo, armas en pantalla/uso) |
Niveles de gravedad sexual
|
Nivel de gravedad |
Descripción |
Ejemplo de imagen |
| Seguro |
El contenido es seguro, pero contiene imágenes sexualmente relacionadas que se usan en un sentido general. Esto incluye:- Relaciones familiares y románticas
- Nudidad no sexual
- Ropa
- Objetos comunes
- Postura o actividad no sexual
- Apareamiento animal
- Bienestar sexual
|
Representaciones de abrazos o demostración de contacto físico no sexual
Representaciones que muestran la expresión física de afecto, como besar sin lengua y sin desnudez. |
| Bajo |
Contenido que contiene comportamientos o actos sexualmente sugerentes. Esto incluye:- Experiencias personales
- Modelado de moda
- Nudidad en obras de arte
- Arte corporal
- Pantalla vibrante
|
Representaciones de personas |
| Medio |
Contenido que contiene material erótico y pornográfico, tanto comercial como aficionado, sin penetración visual fotográfica y con participantes desnudos o semidesnudos implicados en escenas sexuales destinadas a ser sexualmente excitantes. Esto incluye:- Modelado sexual
- Nudidad suave en obras de arte
- Trabajos sexuales o tiendas de sexo
- Actividad sexual oculta
- Tras bambalinas de la producción pornográfica
- Baile de polos
|
Representaciones de relaciones sexuales que pueden estar parcialmente ocluidas pero aún presentes claramente en la imagen |
| Alto |
Contenido que contiene representaciones detalladas explícitas de órganos sexuales y actos sexuales, incluidos los actos ilegales. Esto incluye:- Pornografía amateur suave y dura
- Solicitud sexual
- Voyeurismo
- Sexo en obras de arte
- BDSM sin consentimiento ni violación
- Explotación y abuso sexual infantil
- Limpieza infantil
- Incesto
|
Representaciones de interacciones en actividades sexuales con animales o cadáveres |
Niveles de gravedad de violencia
|
Nivel de gravedad |
Descripción |
Ejemplo de imagen |
| Seguro |
El contenido es seguro, pero contiene imágenes relacionadas con la violencia usadas en un sentido general. Esto incluye:- Posición para dormir o acostarse
- Objetos comunes
- Actividad no violenta
- Cuerdas no como un nudo corredizo
- Herramientas con filo utilizadas en cocina/costura
- Heridas, cicatrices y tratamiento quirúrgico
- Caza y deporte de tiro
- Juguetes y armas de juguete
- Práctica de combate
- Daños en objetos y vandalismo
- Símbolos terroristas sin marca
|
Representaciones de armas no realistas y herramientas de hoja |
| Bajo |
Contenido que contiene imágenes relacionadas con la violencia y se representa en contextos reales o ficticios con poca sangre. Esto incluye:- Armas, herramientas con cuchillas y herramientas de hoja en exhibición y en uso
- Cadáver no realista
- Violencia no realista
- Armas animadas
- Lesiones leves y experiencia personal
- Cuerda como un lazo
- Muerte en el entorno histórico, educativo o funerario
- Símbolos terroristas no realistas
- Corrida de toros
|
Representaciones de banderas de EIIL/al-Qaeda |
| Medio |
Contenido que contiene violencia gráfica moderada y actos violentos dirigidos a un objetivo identificado. Esto incluye:- Autopsia
- Escena de crimen o muerte
- Muerte animal (natural o cazada), sacrificio animal, abuso de animales
- Esclavización
- Genocidio y asesinatos masivos en entornos históricos y educativos
- Matadero
- Violencia doméstica y abuso físico
- Acoso escolar
- Armas en uso contra un objetivo
|
Representaciones del uso de la fuerza y la coerción para dominar o intimidar a un individuo de forma agresiva |
| Alto |
Contenido que contiene representaciones detalladas y explícitas de violencia y actos violentos con mucho gore. Esto incluye:- Lesiones gráficas y muerte
- Desmembramiento, descapitación, quema vivo
- Descomposición corporal
- Terrorismo, grupos terroristas y banderas
- Trabajo forzado y servidumbre, procedimiento médico forzado
- Acechamiento
- Cadáver en terrorismo y crimen de guerra
- Evento de tiro
- Otro racismo
|
Representaciones de la muerte cuando se realizan por grupos terroristas identificables por banderas y símbolos de EIIL |
Niveles de gravedad de daño propio
|
Nivel de gravedad |
Descripción |
Ejemplo de imagen |
| Seguro |
El contenido es seguro, pero contiene imágenes relacionadas con la autolesión, utilizadas de manera general. Esto incluye:- Grasa corporal baja
- Acto de no autolesión
- Lesiones accidentales en el cuerpo
|
Representaciones de saltos en paracaídas desde un avión |
| Bajo |
Contenido que contiene imágenes relacionadas con la autolesión y se desarrolla en contextos reales o ficticios con bajo nivel de violencia gráfica. Esto incluye:- Cicatrices
- Autolesiones en recuperación
- Auto-daño no realista
- Individuos o animales demacrados
|
Representaciones de actos relacionados con el autolesión, herramientas, lesiones y estado emocional |
| Medio |
Contenido que contiene imágenes gráficas moderadas relacionadas con el auto daño y el suicidio. Esto incluye:- Autopsia
- Escena de crimen o muerte
- Acoso escolar
|
Representaciones del uso de la fuerza y la coerción para dominar o intimidar agresivamente a un individuo hasta autolesionarse |
| Alto |
Contenido que contiene representaciones detalladas explícitas de autolesión y suicidio con alto contenido violento. Esto incluye:- Acto inminente de autolesión
- Actos de autolesión
- Suicidio
|
Representaciones del suicidio intencional, donde una persona se ha suicidado saltando de un edificio alto |
Solución de problemas
Descripción de las clasificaciones de gravedad
Si el contenido se clasifica en un nivel de gravedad inesperado:
- Revise las definiciones de gravedad detalladas para comprender los criterios de clasificación.
- Compruebe si falta contexto que cambiaría la interpretación (educativa, histórica, ficticia)
- Compruebe que el idioma del contenido está en la lista admitida para obtener la mejor precisión.
- Usar anotaciones para ver todas las categorías detectadas, no solo las filtradas
Ajuste de la sensibilidad
Si ve demasiados falsos positivos o negativos:
- Revise los ajustes del umbral en la configuración de la baranda de seguridad.
- Considere si el tipo de contenido (educativo, médico, creativo) requiere una directiva de contenido personalizada
- Para los casos de uso admitidos, solicite una configuración de filtro de contenido personalizada.
Para obtener más información, consulte Configuración de límites de protección y controles.
Pasos siguientes