Barreras de protección y controles para modelos vendidos directamente por Azure (clásico)

Solo se aplica a:portal Foundry (clásico). Este artículo no está disponible para el nuevo portal de Foundry. Obtenga más información sobre el nuevo portal.

Nota

Los vínculos de este artículo pueden abrir contenido en la nueva documentación de Microsoft Foundry en lugar de la documentación de Foundry (clásico) que está viendo ahora.

Importante

Los elementos marcados (versión preliminar) de este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se proporciona sin un contrato de nivel de servicio y no se recomienda para cargas de trabajo de producción. Es posible que algunas características no se admitan o que tengan funcionalidades restringidas. Para obtener más información, vea Supplemental Terms of Use for Microsoft Azure Previews.

En este artículo, obtenga información sobre las funcionalidades de seguridad de contenido para los modelos del catálogo de modelos implementados mediante implementaciones de API sin servidor.

Valores predeterminados del filtro de contenido

Azure AI usa una configuración predeterminada de Seguridad del contenido de Azure AI filtros de contenido para detectar contenido dañino en cuatro categorías, como el odio y la imparcialidad, el autolesión, el sexo y la violencia para los modelos implementados a través de implementaciones de API sin servidor. Para más información sobre el filtrado de contenido, consulte Descripción de las categorías de daños.

La configuración de filtrado de contenido predeterminada para los modelos de texto se establece para filtrar en el umbral de gravedad medio, filtrando cualquier contenido detectado en este nivel o superior. En el caso de los modelos de imagen, la configuración de filtrado de contenido predeterminada se establece en el umbral de configuración bajo, filtrando en este nivel o superior. Para los modelos implementados con el Microsoft Foundry Models, puede crear filtros configurables seleccionando la página Content filters dentro de la Guardrails & controls página del portal foundry.

Propina

El filtrado de contenido no está disponible para determinados tipos de modelo que se implementan a través de implementaciones de API sin servidor. Estos tipos de modelo incluyen la inserción de modelos y modelos de serie temporal.

El filtrado de contenido se produce sincrónicamente a medida que el servicio procesa los mensajes para generar contenido. Es posible que se le facture por separado según los precios de Seguridad del contenido de Azure AI para este uso. Puede deshabilitar el filtrado de contenido para puntos de conexión individuales sin servidor:

  • La primera vez que implementa un modelo de lenguaje
  • Posteriormente, seleccionando el botón de alternancia de filtrado de contenido en la página de detalles de implementación.

Supongamos que decide usar una API distinta de la API de inferencia de modelos para trabajar con un modelo que se implementa a través de una implementación de API sin servidor. En tal situación, el filtrado de contenido (versión preliminar) no está habilitado a menos que lo implemente por separado mediante Seguridad del contenido de Azure AI. Para empezar a trabajar con Seguridad del contenido de Azure AI, consulte Quickstart: Analizar contenido de texto. Corre un mayor riesgo de exponer a los usuarios al contenido dañino si no usa el filtrado de contenido (modo de vista previa) al trabajar con modelos que se implementan mediante implementaciones sin servidor de API.

Descripción de las categorías de daños

Categorías de daños

Categoría Descripción Término de API
Odio y equidad Los daños de odio y equidad hacen referencia a cualquier contenido que ataque o use lenguaje discriminatorio con referencia a una persona o grupo de identidades basado en determinados atributos diferenciadores de estos grupos.

Esto incluye, pero no se limita a:
  • Raza, etnicidad, nacionalidad
  • Grupos y expresiones de identidad de género
  • Orientación sexual
  • Religión
  • Aspecto personal y tamaño del cuerpo
  • Estado de discapacidad
  • Acoso y matonismo
Hate
Sexual Sexuales describe el lenguaje relacionado con los órganos anatómicos y los genitales, las relaciones románticas y los actos sexuales, los actos representados en términos eróticos o cariñosos, incluidos aquellos representados como un asalto o un acto violento sexual forzado contra la voluntad de la persona.

Esto incluye, pero no está limitado a:
  • Contenido vulgar
  • Prostitución
  • Nudidad y pornografía
  • Abuso
  • Explotación infantil, abuso infantil, acoso infantil
Sexual
Violencia La violencia describe el lenguaje relacionado con acciones físicas destinadas a herir, lesionar, dañar o matar a alguien o algo; describe armas, armas y entidades relacionadas.

Esto incluye, pero no se limita a:
  • Armas
  • Acoso e intimidación
  • Terrorismo y terrorismo violento
  • Acechamiento
Violence
Autolesiones El término 'auto-daño' describe el lenguaje relacionado con las acciones físicas destinadas a herir, lesionar o dañar el propio cuerpo o suicidarse.

Esto incluye, pero no se limita a:
  • Trastornos de la alimentación
  • Acoso e intimidación
SelfHarm
Cumplimiento de tareas Ayuda a garantizar que los agentes de IA se comporten de forma coherente en consonancia con las instrucciones de usuario y los objetivos de tarea. Identifica discrepancias, como invocaciones de herramientas mal alineadas, entrada o salida de herramientas incorrectas en relación con la intención del usuario e incoherencias entre las respuestas y la entrada del cliente.

Niveles de gravedad

Nivel Descripción
Seguro El contenido puede estar relacionado con la violencia, el autolesión, las categorías sexuales o de odio. Sin embargo, los términos se utilizan en general, los contextos periodísticos, científicos, médicos y profesionales similares, que son adecuados para la mayoría de los públicos.
Bajo El contenido que expresa opiniones prejuiciadas, juicios o puntos de vista opinativos, incluye el uso ofensivo del lenguaje, los estereotipos, los casos de uso que implican la exploración de un mundo ficticio (por ejemplo, juegos, literatura) y representaciones de baja intensidad.
Medio El contenido que usa lenguaje ofensivo, insultante, burlón, intimidante o denigrante hacia grupos de identidades específicos incluye representaciones de búsqueda y ejecución de instrucciones perjudiciales, fantasías, glorificación y promoción de daño de intensidad media.
Alto Contenido que muestra instrucciones, acciones, daños o abusos explícitos y graves; incluye la aprobación, la glovalación o la promoción de actos perjudiciales graves, formas extremas o ilegales de daño, radicalización o intercambio de poder inconsensuoso o abuso.

Cómo se calculan los cargos

Los detalles de precios se pueden ver en precios de Seguridad del contenido de Azure AI. Los cargos se incurren cuando el Seguridad del contenido de Azure AI valida el mensaje o la finalización. Si Seguridad del contenido de Azure AI bloquea el mensaje o la finalización, se le cobrará tanto por la evaluación del contenido como por las llamadas de inferencia.