Categorías de daño y niveles de gravedad en Microsoft Foundry

Las guardrails de Foundry de Microsoft garantizan que las salidas generadas por IA se alineen con las directrices éticas y los estándares de seguridad. El sistema de filtrado de contenido clasifica el contenido dañino en cuatro categorías ( odio, sexual, violencia y autolesión), cada uno de los cuales se clasifica en cuatro niveles de gravedad (seguros, bajos, medianos y altos) para el contenido de texto e imagen. Use estas categorías y niveles para configurar controles de barrera de protección que detecten y mitiguen los riesgos asociados con el contenido dañino en las implementaciones y agentes del modelo.

Para obtener información general sobre cómo funcionan los límites de protección, consulte Información general sobre los límites de protección y los controles.

El sistema de seguridad de contenido usa modelos de clasificación multiclase neuronales para detectar y filtrar contenido dañino para texto e imagen. El contenido detectado en el nivel de gravedad "seguro" está etiquetado en anotaciones, pero no está sujeto al filtrado y no es configurable.

Nota

Los modelos de seguridad de contenido de texto para las categorías de odio, violencia, violencia y autolesión se entrenan y prueban en los siguientes idiomas: inglés, alemán, japonés, español, francés, italiano, portugués y chino. El servicio puede funcionar en muchos otros idiomas, pero la precisión de la detección y las tasas de falsos positivos pueden variar. En los casos de llamada, realice pruebas exhaustivas para validar que el rendimiento cumple sus requisitos.

Descripciones de categorías de daños

En la tabla siguiente se resumen las categorías de daños admitidas por las barandillas de seguridad de Foundry.

Categoría Descripción
Odio y equidad Los daños relacionados con la imparcialidad y el odio hacen referencia a cualquier contenido que ataque o use lenguaje discriminatorio con referencia a una persona o grupo de identidades basado en determinados atributos diferenciadores de estos grupos.

Esta categoría incluye, pero no se limita a:
• Raza, etnicidad, nacionalidad
• Grupos y expresiones de identidad de género
• Orientación sexual
• Religión
• Aspecto personal y tamaño del cuerpo
• Estado de discapacidad
• Acoso e intimidación
Sexual Sexuales describe el lenguaje relacionado con los órganos anatómicos y los genitales, las relaciones románticas y los actos sexuales, los actos representados en términos eróticos o cariñosos, incluidos aquellos representados como un asalto o un acto violento sexual forzado contra la voluntad de la persona.

Esta categoría incluye, pero no se limita a:
• Contenido vulgar
• Prostitución
• Nudidad y pornografía
• Abuso
• Explotación infantil, abuso infantil, grooming infantil
Violencia La violencia describe el lenguaje relacionado con acciones físicas destinadas a herir, lesionar, dañar o matar a alguien o algo; describe armas, armas y entidades relacionadas.

Esta categoría incluye, pero no se limita a:
• Armas
• Acoso e intimidación
• Terrorismo y terrorismo violento
• Acechamiento
Autolesión El término 'auto-daño' describe el lenguaje relacionado con las acciones físicas destinadas a herir, lesionar o dañar el propio cuerpo o suicidarse.

Esta categoría incluye, pero no se limita a:
• Trastornos alimenticios
• Acoso e intimidación
Cumplimiento de tareas Ayuda a garantizar que los agentes de IA se comporten de forma coherente en consonancia con las instrucciones de usuario y los objetivos de tarea. Identifica discrepancias, como invocaciones de herramientas mal alineadas, entrada o salida de herramientas incorrectas en relación con la intención del usuario e incoherencias entre las respuestas y la entrada del cliente.

Niveles de gravedad

El sistema de seguridad de contenido clasifica el contenido dañino en cuatro niveles de gravedad:

Nivel de gravedad Descripción
Seguro No se detectó ningún material dañino. Anotado pero nunca filtrado.
Bajo Material dañino leve. Incluye vistas prejuiciadas, representaciones leves en contextos ficticios o experiencias personales.
Medio Material peligroso moderado. Incluye representaciones gráficas, acoso o contenido que promueve actos perjudiciales.
Alto Material gravemente perjudicial. Incluye contenido extremista, representaciones explícitas o contenido que respalda daños graves.

Cómo se asignan los niveles de gravedad a la configuración de límite de protección

Al configurar un control de límite de protección para una categoría de daño, se establece un umbral de gravedad que determina qué contenido se marca:

Configuración del umbral Comportamiento
Desactivado La detección está deshabilitada para esta categoría. No se marca ni se bloquea ningún contenido.
Bajo Marca el contenido con una gravedad baja o más alta. Configuración menos restrictiva.
Medio Señala el contenido de gravedad media o mayor.
Alto Marca solo el contenido más grave. Configuración más restrictiva.

El contenido en el nivel "seguro" siempre se anota, pero nunca se bloquea, independientemente de la configuración del umbral. Para configurar estos umbrales, consulte Configuración de límites de protección y controles.

Definiciones de gravedad detalladas para texto

En las tablas siguientes se proporcionan descripciones detalladas y ejemplos para cada nivel de gravedad dentro de cada categoría de daño para el contenido de texto. Seleccione la pestaña Definiciones de gravedad para ver ejemplos.

Contenido de texto

Advertencia

La pestaña Definiciones de gravedad de este documento contiene ejemplos de contenido dañino que puede resultar preocupante para algunos lectores.

Definiciones de gravedad detalladas para imágenes

En las tablas siguientes se proporcionan descripciones detalladas y ejemplos para cada nivel de gravedad dentro de cada categoría de daño para el contenido de la imagen. Seleccione la pestaña Definiciones de gravedad para ver ejemplos.

Contenido de la imagen

Advertencia

La pestaña Definiciones de gravedad de este documento contiene ejemplos de contenido dañino que puede resultar preocupante para algunos lectores.

Solución de problemas

Descripción de las clasificaciones de gravedad

Si el contenido se clasifica en un nivel de gravedad inesperado:

  • Revise las definiciones de gravedad detalladas para comprender los criterios de clasificación.
  • Compruebe si falta contexto que cambiaría la interpretación (educativa, histórica, ficticia)
  • Compruebe que el idioma del contenido está en la lista admitida para obtener la mejor precisión.
  • Usar anotaciones para ver todas las categorías detectadas, no solo las filtradas

Ajuste de la sensibilidad

Si ve demasiados falsos positivos o negativos:

  • Revise los ajustes del umbral en la configuración de la baranda de seguridad.
  • Considere si el tipo de contenido (educativo, médico, creativo) requiere una directiva de contenido personalizada
  • Para los casos de uso admitidos, solicite una configuración de filtro de contenido personalizada.

Para obtener más información, consulte Configuración de límites de protección y controles.

Pasos siguientes