Categorias de danos e níveis de gravidade no Microsoft Foundry

Os mecanismos de proteção da Microsoft Foundry garantem que os resultados gerados por IA estejam alinhados com diretrizes éticas e normas de segurança. O sistema de filtragem de conteúdos classifica conteúdos prejudiciais em quatro categorias — ódio, sexual, violência e auto-mutilação — cada uma classificada em quatro níveis de gravidade (seguro, baixo, médio e alto) tanto para texto como para imagens. Use estas categorias e níveis para configurar controlos de proteção que detetem e mitiguem riscos associados a conteúdos prejudiciais nas suas implementações e agentes de modelo.

Para uma visão geral de como funcionam os corrimãos de proteção, consulte Visão geral sobre os corrimãos de proteção e os controlos.

O sistema de segurança de conteúdos utiliza modelos neurais de classificação multiclasse para detetar e filtrar conteúdos prejudiciais tanto para texto como para imagem. O conteúdo detetado no nível de gravidade "seguro" é rotulado em anotações, mas não está sujeito a filtragem nem é configurável.

Nota

Os modelos de segurança do conteúdo do texto para as categorias de ódio, sexualidade, violência e automutilação são treinados e testados nas seguintes línguas: inglês, alemão, japonês, espanhol, francês, italiano, português e chinês. O serviço pode funcionar em muitas outras línguas, mas a precisão da deteção e as taxas de falsos positivos podem variar. Em todos os casos, realize testes rigorosos para verificar se o desempenho corresponde aos seus requisitos.

Descrições das categorias de dano

A tabela seguinte resume as categorias de danos suportadas pelos guardiões da Foundry:

Categoria Descrição
Ódio e Justiça Danos relacionados com ódio e justiça referem-se a qualquer conteúdo que ataque ou utilize linguagem discriminatória com referência a uma pessoa ou grupo de identidade, com base em certos atributos diferenciadores desses grupos.

Esta categoria inclui, mas não se limita a:
• Raça, etnia, nacionalidade
• Grupos e expressão de identidade de género
• Orientação sexual
• Religião
• Aparência pessoal e tamanho corporal
• Estado de incapacidade
• Assédio e intimidação
Sexual Sexual descreve linguagem relacionada com órgãos anatómicos e genitais, relações românticas e atos sexuais, atos retratados em termos eróticos ou afetuosos, incluindo aqueles retratados como agressão ou ato sexual violento forçado contra a própria vontade.

Esta categoria inclui, mas não se limita a:
• Conteúdo vulgar
• Prostituição
• Nudez e pornografia
• Abuso
• Exploração infantil, abuso infantil, aliciamento infantil
Violência Violência descreve linguagem relacionada com ações físicas destinadas a magoar, ferir, danificar ou matar alguém ou algo; descreve armas, armas de fogo e entidades relacionadas.

Esta categoria inclui, mas não se limita a:
• Armas
• Bullying e intimidação
• Terrorismo e extremismo violento
• Perseguição
Auto-mutilação A automutilação descreve linguagem relacionada com ações físicas destinadas a magoar, ferir, danificar intencionalmente o corpo ou suicidar-se.

Esta categoria inclui, mas não se limita a:
• Transtornos alimentares
• Bullying e intimidação
Adesão à Tarefa Ajuda a garantir que os Agentes de IA se comportam consistentemente em conformidade com as instruções do utilizador e os objetivos das tarefas. Identifica discrepâncias, como invocações de ferramentas desalinhadas, entrada ou saída inadequada da ferramenta em relação à intenção do utilizador, e inconsistências entre as respostas e as entradas do cliente.

Níveis de gravidade

O sistema de segurança de conteúdos classifica o conteúdo nocivo em quatro níveis de gravidade:

Nível de gravidade Descrição
Seguro Nenhum material nocivo detetado. Anotado mas nunca filtrado.
Baixo Material ligeiramente prejudicial Inclui opiniões preconceituosas, representações leves em contextos fictícios ou experiências pessoais.
Média Material moderadamente nocivo. Inclui representações gráficas, bullying ou conteúdos que promovam atos prejudiciais.
Alto Material extremamente prejudicial. Inclui conteúdo extremista, representações explícitas ou conteúdo que endosse danos graves.

Como os níveis de gravidade correspondem à configuração do guardrail

Quando configura um controlo de proteção para uma categoria de dano, define um limiar de gravidade que determina qual o conteúdo que é sinalizado:

Definição do limiar Comportamento
Desliga A deteção está desativada para esta categoria. Nenhum conteúdo é sinalizado ou bloqueado.
Baixo Sinaliza conteúdo em gravidade baixa e superior. Configuração menos restritiva.
Média Sinaliza conteúdo em gravidade média ou superior.
Alto Sinaliza apenas o conteúdo mais severo. Configuração mais restritiva.

O conteúdo ao nível "seguro" é sempre anotado, mas nunca bloqueado, independentemente da definição do limiar. Para configurar estes limiares, veja Como configurar guardas e controlos.

Definições detalhadas de severidade para texto

As tabelas seguintes fornecem descrições detalhadas e exemplos para cada nível de gravidade dentro de cada categoria de dano para o conteúdo do texto. Selecione o separador Definições de Gravidade para ver exemplos.

Conteúdo do texto

Aviso

O separador Definições de Gravidade neste documento contém exemplos de conteúdo prejudicial que pode ser perturbador para alguns leitores.

Definições detalhadas de gravidade para imagens

As tabelas seguintes fornecem descrições detalhadas e exemplos para cada nível de gravidade dentro de cada categoria de dano no conteúdo das imagens. Selecione o separador Definições de Gravidade para ver exemplos.

Conteúdo da imagem

Aviso

O separador Definições de Gravidade neste documento contém exemplos de conteúdo prejudicial que pode ser perturbador para alguns leitores.

Resolução de problemas

Compreender classificações de gravidade

Se o conteúdo for classificado a um nível de gravidade inesperado:

  • Revise as definições detalhadas de gravidade para compreender os critérios de classificação
  • Verifica se falta contexto que altere a interpretação (educativa, histórica, ficcional)
  • Verifique se a linguagem do conteúdo está na lista suportada para maior precisão
  • Use anotações para ver todas as categorias detetadas, não apenas as filtradas

Ajuste da sensibilidade

Se estiver a ver demasiados falsos positivos ou negativos:

  • Revise as definições de limiar na configuração do corrimão de proteção
  • Considere se o tipo de conteúdo (educativo, médico, criativo) requer uma política de conteúdo personalizada
  • Para casos de uso suportados, solicite uma configuração personalizada de filtro de conteúdo

Para mais informações, consulte Configurar guarda-corpos e controlos.

Próximos passos