Categorias de Prejuízo e Níveis de Gravidade no Microsoft Foundry

Os guardrails do Microsoft Foundry garantem que as saídas geradas por IA estejam alinhadas com as diretrizes éticas e padrões de segurança. O sistema de filtragem de conteúdo classifica o conteúdo nocivo em quatro categorias – ódio, sexual, violência e automutilação – cada uma classificada em quatro níveis de gravidade (seguro, baixo, médio e alto) para conteúdo de texto e imagem. Use essas categorias e níveis para configurar controles guardrail que detectam e reduzem os riscos associados a conteúdo prejudicial em suas implantações e agentes de modelo.

Para obter uma visão geral de como os guardrails funcionam, consulte Visão Geral de Guardrails e Controles.

O sistema de segurança de conteúdo usa modelos de classificação multiclasse neural para detectar e filtrar conteúdo nocivo para texto e imagem. O conteúdo detectado no nível de severidade "seguro" é rotulado em anotações, mas não está sujeito à filtragem e não é configurável.

Nota

Os modelos de segurança de conteúdo de texto para as categorias de ódio, sexual, violência e automutilação são treinados e testados nos seguintes idiomas: inglês, alemão, japonês, espanhol, francês, italiano, português e chinês. O serviço pode funcionar em muitos outros idiomas, mas a precisão da detecção e as taxas de falso positivo podem variar. Nos casos de chamadas, realize testes minuciosos para validar se o desempenho atende aos seus requisitos.

Descrições de categoria de danos

A tabela a seguir resume as categorias de danos suportadas pelos guardrails do Foundry.

Categoria Descrição
Ódio e imparcialidade Os danos relacionados ao ódio e à imparcialidade referem-se a qualquer conteúdo que ataque ou use linguagem discriminatória com referência a uma pessoa ou grupo de identidade com base em determinados atributos diferenciais desses grupos.

Essa categoria inclui, mas não se limita a:
• Raça, etnia, nacionalidade
• Grupos de identidade de gênero e expressão
• Orientação sexual
•Religião
• Aparência pessoal e tamanho do corpo
• Status da deficiência
• Assédio e bullying
Sexual Sexual descreve linguagem relacionada a órgãos anatômicos e genitais, relacionamentos românticos e atos sexuais, atos retratados em termos eróticos ou afetuosos, incluindo aqueles retratados como uma agressão ou um ato violento sexual forçado contra a vontade.

Essa categoria inclui, mas não se limita a:
• Conteúdo vulgar
• Prostituição
• Nudez e pornografia
•Abuso
• Exploração infantil, abuso infantil, aliciamento de crianças
Violência A violência descreve a linguagem relacionada a ações físicas destinadas a machucar, ferir, danificar ou matar alguém ou algo; descreve armas, armas de fogo e entidades relacionadas.

Essa categoria inclui, mas não se limita a:
•Armas
• Bullying e intimidação
• Extremismo terrorista e violento
• Perseguição
Automutilação A automutilação refere-se à linguagem relacionada a ações físicas destinadas a ferir, causar dano propositalmente ao próprio corpo ou provocar a própria morte.

Essa categoria inclui, mas não se limita a:
• Distúrbios alimentares
• Bullying e intimidação
Adesão à tarefa Ajuda a garantir que os Agentes de IA se comportem consistentemente em alinhamento com as instruções do usuário e os objetivos da tarefa. Identifica discrepâncias, como invocações de ferramentas desalinhadas, entrada ou saída de ferramenta inadequada em relação à intenção do usuário e inconsistências entre respostas e entrada do cliente.

Níveis de severidade

O sistema de segurança de conteúdo classifica o conteúdo nocivo em quatro níveis de gravidade:

Nível de gravidade Descrição
Seguro Nenhum material nocivo detectado. Anotado, mas nunca filtrado.
Baixo Material nocivo leve. Inclui exibições preconceituosas, representações leves em contextos fictícios ou experiências pessoais.
Médio Material nocivo moderado. Inclui representações gráficas, bullying ou conteúdo que promove atos nocivos.
Alta Material extremamente nocivo. Inclui conteúdo extremista, representações explícitas ou conteúdo que endossa danos graves.

De que forma os níveis de severidade são mapeados para a configuração de guardrail

Ao configurar um controle guardrail para uma categoria de danos, você define um limite de severidade que determina qual conteúdo é sinalizado:

Configuração de limite Comportamento
Desativado A detecção está desabilitada para essa categoria. Nenhum conteúdo é sinalizado ou bloqueado.
Baixo Sinaliza o conteúdo com nível de severidade baixo e maior. Configuração menos restritiva.
Médio Sinaliza conteúdo de gravidade média ou superior.
Alta Sinaliza apenas o conteúdo mais grave. Configuração mais restritiva.

O conteúdo no nível "seguro" é sempre anotado, mas nunca bloqueado, independentemente da configuração de limite. Para configurar esses limites, consulte Como configurar guardrails e controles.

Definições de severidade detalhadas para texto

As tabelas a seguir fornecem descrições detalhadas e exemplos para cada nível de gravidade dentro de cada categoria de dano para conteúdo de texto. Selecione a guia Definições de Severidade para exibir exemplos.

Conteúdo de texto

Aviso

A guia Definições de severidade neste documento contém exemplos de conteúdo prejudicial que podem ser perturbadores para alguns leitores.

Definições de severidade detalhadas para imagens

As tabelas a seguir fornecem descrições detalhadas e exemplos para cada nível de gravidade dentro de cada categoria de dano para o conteúdo da imagem. Selecione a guia Definições de Severidade para exibir exemplos.

Conteúdo da imagem

Aviso

A guia Definições de severidade neste documento contém exemplos de conteúdo prejudicial que podem ser perturbadores para alguns leitores.

Solucionando problemas

Noções básicas sobre classificações de severidade

Se o conteúdo for classificado em um nível de severidade inesperado:

  • Examine as definições detalhadas de severidade para entender os critérios de classificação
  • Verifique se o contexto está ausente que alteraria a interpretação (educacional, histórica, fictícia)
  • Verifique se o idioma do conteúdo está na lista com suporte para obter a melhor precisão
  • Use anotações para ver todas as categorias detectadas, não apenas as filtradas

Ajustando a sensibilidade

Se você estiver vendo muitos falsos positivos ou negativos:

  • Examine as configurações de limite na configuração do guardrail
  • Considere se o tipo de conteúdo (educacional, médico, criativo) requer uma política de conteúdo personalizada
  • Para casos de uso com suporte, solicite uma configuração de filtro de conteúdo personalizado

Para obter mais informações, consulte Configurar guardrails e controles.

Próximas etapas