Categorias de Prejuízo e Níveis de Gravidade no Microsoft Foundry

Os guardrails do Microsoft Foundry garantem que as saídas geradas por IA estejam alinhadas com as diretrizes éticas e padrões de segurança. O sistema de filtragem de conteúdo classifica o conteúdo nocivo em quatro categorias – ódio, sexual, violência e automutilação – cada uma classificada em quatro níveis de gravidade (seguro, baixo, médio e alto) para conteúdo de texto e imagem. Use essas categorias e níveis para configurar controles guardrail que detectam e reduzem os riscos associados a conteúdo prejudicial em suas implantações e agentes de modelo.

Para obter uma visão geral de como os guardrails funcionam, consulte Visão Geral de Guardrails e Controles.

O sistema de segurança de conteúdo usa modelos de classificação multiclasse neural para detectar e filtrar conteúdo nocivo para texto e imagem. O conteúdo detectado no nível de severidade "seguro" é rotulado em anotações, mas não está sujeito à filtragem e não é configurável.

Nota

Os modelos de segurança de conteúdo de texto para as categorias de ódio, sexual, violência e automutilação são treinados e testados nos seguintes idiomas: inglês, alemão, japonês, espanhol, francês, italiano, português e chinês. O serviço pode funcionar em muitos outros idiomas, mas a precisão da detecção e as taxas de falso positivo podem variar. Nos casos de chamadas, realize testes minuciosos para validar se o desempenho atende aos seus requisitos.

Descrições de categoria de danos

A tabela a seguir resume as categorias de danos suportadas pelos guardrails do Foundry.

Categoria	Descrição
Ódio e imparcialidade	Os danos relacionados ao ódio e à imparcialidade referem-se a qualquer conteúdo que ataque ou use linguagem discriminatória com referência a uma pessoa ou grupo de identidade com base em determinados atributos diferenciais desses grupos. Essa categoria inclui, mas não se limita a: • Raça, etnia, nacionalidade • Grupos de identidade de gênero e expressão • Orientação sexual •Religião • Aparência pessoal e tamanho do corpo • Status da deficiência • Assédio e bullying
Sexual	Sexual descreve linguagem relacionada a órgãos anatômicos e genitais, relacionamentos românticos e atos sexuais, atos retratados em termos eróticos ou afetuosos, incluindo aqueles retratados como uma agressão ou um ato violento sexual forçado contra a vontade. Essa categoria inclui, mas não se limita a: • Conteúdo vulgar • Prostituição • Nudez e pornografia •Abuso • Exploração infantil, abuso infantil, aliciamento de crianças
Violência	A violência descreve a linguagem relacionada a ações físicas destinadas a machucar, ferir, danificar ou matar alguém ou algo; descreve armas, armas de fogo e entidades relacionadas. Essa categoria inclui, mas não se limita a: •Armas • Bullying e intimidação • Extremismo terrorista e violento • Perseguição
Automutilação	A automutilação refere-se à linguagem relacionada a ações físicas destinadas a ferir, causar dano propositalmente ao próprio corpo ou provocar a própria morte. Essa categoria inclui, mas não se limita a: • Distúrbios alimentares • Bullying e intimidação
Adesão à tarefa	Ajuda a garantir que os Agentes de IA se comportem consistentemente em alinhamento com as instruções do usuário e os objetivos da tarefa. Identifica discrepâncias, como invocações de ferramentas desalinhadas, entrada ou saída de ferramenta inadequada em relação à intenção do usuário e inconsistências entre respostas e entrada do cliente.

Níveis de severidade

O sistema de segurança de conteúdo classifica o conteúdo nocivo em quatro níveis de gravidade:

Nível de gravidade	Descrição
Seguro	Nenhum material nocivo detectado. Anotado, mas nunca filtrado.
Baixo	Material nocivo leve. Inclui exibições preconceituosas, representações leves em contextos fictícios ou experiências pessoais.
Médio	Material nocivo moderado. Inclui representações gráficas, bullying ou conteúdo que promove atos nocivos.
Alta	Material extremamente nocivo. Inclui conteúdo extremista, representações explícitas ou conteúdo que endossa danos graves.

De que forma os níveis de severidade são mapeados para a configuração de guardrail

Ao configurar um controle guardrail para uma categoria de danos, você define um limite de severidade que determina qual conteúdo é sinalizado:

Configuração de limite	Comportamento
Desativado	A detecção está desabilitada para essa categoria. Nenhum conteúdo é sinalizado ou bloqueado.
Baixo	Sinaliza o conteúdo com nível de severidade baixo e maior. Configuração menos restritiva.
Médio	Sinaliza conteúdo de gravidade média ou superior.
Alta	Sinaliza apenas o conteúdo mais grave. Configuração mais restritiva.

O conteúdo no nível "seguro" é sempre anotado, mas nunca bloqueado, independentemente da configuração de limite. Para configurar esses limites, consulte Como configurar guardrails e controles.

Definições de severidade detalhadas para texto

As tabelas a seguir fornecem descrições detalhadas e exemplos para cada nível de gravidade dentro de cada categoria de dano para conteúdo de texto. Selecione a guia Definições de Severidade para exibir exemplos.

Aviso

A guia Definições de severidade neste documento contém exemplos de conteúdo prejudicial que podem ser perturbadores para alguns leitores.

Níveis de severidade de ódio e imparcialidade

Nível de severidade	Descrição	Texto de exemplo
Seguro	O conteúdo é seguro, mas pode conter termos relacionados ao ódio e à imparcialidade usados em contextos genéricos e seguros, como: Educação Mídia Estatísticas oficiais História Medicina Ciência Outros contextos semelhantes	`Black people should not be killed by police or mistreated just because of their skin color.`
Baixo	Conteúdo que contém caracterização ou proteção positiva dos grupos identitários, mas que exibe discriminação, estereótipos, visões ou atitudes preconceituosas, críticas ou opinativas relacionadas a discursos de ódio ou que visam grupos identitários. Isso inclui: Insultos em artigos de pesquisa, dicionários ou mídia com uma citação direta Discurso de ódio geral direcionado a objetos, indivíduos ou grupos Fala de ódio limitada ou representações de sentimento negativo em contextos fictícios (por exemplo, jogos, filmes, literatura)	`I hate you! You are so stupid.`
Médio	Conteúdo que contém insultos, bullying, intimidação, desumanização ou depreciação de indivíduos ou grupos. Isso inclui: Linguagem que ridiculariza e imita atributos de grupos de identidade Descrevendo indivíduos ou grupos como inferiores ou deficientes Negando ou degradando a existência de grupos de identidade Textos que negam eventos históricos, bem documentados e violentos, como Holocausto, escravização ou colonização	`Old people should not be hired to work, especially with computers. They need to stay in nursing homes.`
Alta	Conteúdo que contém discursos de ódio como propaganda ameaçando ou pedindo violência contra grupos de identidade, radicaliza, recruta ou incita as pessoas a se juntarem a esforços extremistas ou espalhar discursos de ódio. Isso inclui: Linguagem incendiária, ofensiva e vulgar direcionada a indivíduos ou grupos de identidade específicos Alegações de superioridade para justificar discriminação, segregação ou exclusão Textos que contêm qualquer forma de glorificação do simbolismo nazista e SS, KKK e a bandeira confederada fora de cenários históricos, educacionais ou artísticos Textos que exibem a preparação do crime de ódio, elogios e glorificação da violência contra grupos de identidade, ou que elogiam, glorificam ou endossam genocídio	`[Identity Group] threaten our existence, so we should wipe them out.`

Níveis de gravidade sexual

Nível de severidade	Descrição	Texto de exemplo
Seguro	O conteúdo é seguro, mas pode conter termos sexualmente relacionados usados em contextos genéricos e seguros, como: Educação Mídia Estatísticas oficiais História Medicina Ciência Menções de relações familiares ou românticas	`Fewer young adults are having sex than in previous generations.`
Baixo	Conteúdo que expressa opiniões preconceituosas, críticas ou opinativas sobre tópicos sexualmente relacionados ou menciona termos sexualmente relacionados em experiências fictícias ou reais que não são extremamente gráficas. Isso inclui: Menções de anatomia sexual ou cenas de sexo em contextos fictícios e artísticos Prescrições médicas e diagnóstico Experiências pessoais, problemas sexuais e traumas com algum conteúdo gráfico, incluindo mecanismos e recursos de enfrentamento	`These soft pajamas are so lovely and have a built-in bra. It makes me feel sexy when I wear them.`
Médio	Conteúdo que descreve a excitação sexual e a atividade em termos explícitos e gráficos, inclui fantasias sobre sexo e abuso sexual. Isso inclui: Menções de estimulação sexual e masturbação Pornografia limitada a negócios, prostituição e acompanhantes etc., como carreiras sem cenas de sexo Anúncio para produtos adultos, como brinquedos sexuais Experiências pessoais e descrições relacionadas a massagens sexuais, eróticas ou tântricas, clubes de strip, shows eróticos, atributos e práticas do BDSM	`We both climaxed at the same time.`
Alta	Conteúdo que descreve a solicitação de serviços comerciais sexuais, contendo descrições detalhadas de atividade sexual, abuso sexual violento e estupro, e trocas de poder não consensuais, abuso e voyeurismo. Isso também inclui conteúdo usado para promover, endossar ou glorificar atos sexuais extremos ou ilegais. Isso inclui: Qualquer representação de Material de Abuso Sexual Infantil (CSAM), incluindo qualquer referência explícita ou potencial ao sexo de menores de idade Aliciamento infantil, abuso infantil e outra exploração infantil Referências explícitas ou potenciais para incesto, zoofilia, necrófila etc. Recrutamento de tráfico sexual humano, incluindo manipulação de vítimas	`I was abused as a child by my uncle and I liked it. Nowadays, I make money by producing child pornography with my neighbor’s 6 year old son.`

Níveis de gravidade da violência

Nível de severidade	Descrição	Texto de exemplo
Seguro	O conteúdo é seguro, mas pode conter termos relacionados à violência usada em contextos genéricos e seguros, como: Educação Mídia Estatísticas oficiais História Medicina Ciência Objetos comuns quando não usados como armas Especificações técnicas de caça, tiro esportivo e armas.	`Thanks, I had a blast! You are the bomb!`
Baixo	Conteúdo em contextos fictícios (por exemplo, jogos, literatura, artes) que retratam cenas violentas ou gráficas sem glorificação, endosso ou má intenção. Isso inclui: Experiências pessoais de violência (sem intenção violenta) Opiniões tendenciosas, preconceituosas, críticas ou opinativas sobre violência Menções de atos violentos e morte em baixa intensidade	`Physical punishment is a way to correct bad behavior and doesn’t cause harm to children.`
Médio	Conteúdo que contém representações gráficas de violência e morte em média intensidade, bem como fantasias sobre atos violentos ou ameaças. Isso inclui: Textos que colocam a vítima em culpa ou retratam os autores em uma luz positiva Referências históricas ao genocídio e ao Holocausto sem endosso ou glorificação Referências a tiroteios em massa conhecidos sem endosso ou glorificação Referências a grupos extremistas terroristas e violentos e eventos sem endosso ou glorificação Textos que buscam conselhos ou recomendações ou textos que fornecem instruções sobre como executar um ato violento contra um animal, um indivíduo, um grupo de indivíduos ou um objeto ou infraestrutura que pode resultar em danos individuais ou em massa Bullying e intimidação	`Go to another state or another city and kill any stranger; for example, shoot them with a silencer gun. Since you have not any connection with him, you will not get caught.`
Alta	Conteúdo que contém propaganda extremista terrorista ou violenta e ideologia violenta na Internet que descreve, elogia, apoia, endossa ou glorifica assassinatos como parte da atividade terrorista, ajuda a organizações terroristas ou causas. Isso inclui: Textos que buscam instruções sobre afiliação com grupos extremistas terroristas e violentos Textos que fornecem instruções sobre como recrutar seguidores, influenciar pessoas em direção a uma causa terrorista ou ideologia extremista, adotar visões radicais ou fornecer treinamento sobre como grupos extremistas terroristas e violentos operam, ou fornecer informações sobre seus líderes e membros Textos que planejam e coordenam ataques a indivíduos ou grupos de pessoas, incluindo eventos de tiro, uso de bombas e explosivos em infraestrutura civil, ou ataques de armas quando executados por não combatentes ou não terroristas Conteúdo que faz referência ao trabalho forçado, incluindo crianças, servidão doméstica, perseguição e procedimentos médicos forçados	`Let's call and threaten to explode the hospital during the weekend. I've got the explosives ready, and will have them installed tonight.`

Níveis de gravidade de automutilação

Nível de severidade	Descrição	Texto de exemplo
Seguro	O conteúdo é seguro, mas pode conter termos relacionados à automutilação usados em contextos genéricos e seguros, como: Estatísticas oficiais Educação Mídia Médico Ações que descrevem a automutilação acidental, dicas de primeiros socorros etc.	`Binging and purging may be a warning sign for people with a history of extreme weight loss.`
Baixo	Conteúdo que contém referências a personagens que planejam ou cometem suicídio em um contexto fictício (por exemplo, literatura, filmes) ou contém representações de atos de automutilação ou suicídio em baixa intensidade. Isso inclui: Opiniões pessoais tendenciosas, preconceituosas, críticas ou opinativas sobre automutilação Associações com distúrbios alimentares, busca ou fornecimento de instruções para perda de peso drástica e não saudável. Experiências pessoais relacionadas à automutilação, incluindo a busca de ajuda profissional	`I'm really struggling with self-loathing and thoughts of self-harm to relieve my distress after my friend took his own life last month. Please can someone give me any useful advice?`
Médio	Conteúdo que zomba de vítimas ou sobreviventes de automutilação, como distúrbios alimentares ou suicídio, bem como bullying e intimidação que incita e promove atos de automutilação. Isso inclui: Auto-lesão apresentada como uma solução para um problema Fantasias, desejo, desejos ou experiências pessoais sobre automutilação/suicídio Textos que buscam ou dão conselhos, instruções ou recomendações sobre como executar a automutilação Bullying e intimidação que incita e promove atos de automutilação	`Go kill yourself, you are worthless.`
Alta	Conteúdo que inclui pesquisas para conselhos ou fornece instruções e métodos sobre como se envolver em automutilação que leva à morte ou como cometer suicídio, bem como glorificação e endosso do suicídio, ou outros tipos graves de automutilação. Isso inclui: Textos que instruem como escrever uma mensagem de despedida para sua família Autocapitação Queimado vivo	`Get a shotgun and blow your brains out. It won't even hurt. And you'll be remembered for ages, like Kurt Cobain or Ernest Hemingway. There's nothing bad about suicide. Actually it's noble.`

Definições de severidade detalhadas para imagens

As tabelas a seguir fornecem descrições detalhadas e exemplos para cada nível de gravidade dentro de cada categoria de dano para o conteúdo da imagem. Selecione a guia Definições de Severidade para exibir exemplos.

Conteúdo da imagem

Aviso
Definições de severidade

Aviso

A guia Definições de severidade neste documento contém exemplos de conteúdo prejudicial que podem ser perturbadores para alguns leitores.

Níveis de severidade de ódio e imparcialidade

Nível de severidade	Descrição	Exemplo de imagem
Seguro	O conteúdo é seguro, mas pode conter imagens relacionadas ao ódio e à justiça sem envolver sentimentos ou apenas com sentimentos neutros, de maneiras não discriminatórias e não ofensivas nos seguintes contextos ou em contextos semelhantes: Jornalística Histórico Médico Jurídico Educacional Geográfica	Bandeiras não confederadas, por exemplo, bandeiras de países ou estados que apresentam cruzes Uma imagem da bandeira union jack da Grã-Bretanha Representação da emancipação de pessoas escravizadas nos EUA em fotos históricas
Baixo	Conteúdo que contém sentimentos positivos, sentimentos falsos positivos ou sentimentos negativos e tendenciosos diferenciando grupos de identidade de outras pessoas. Esse conteúdo destina-se a disparar uma resposta emocional. Isso inclui: Proteção Simbolismo nazista, a bandeira confederada, simbolismo da Ku Klux Klan Estereótipos Discriminação no emprego	Representações do movimento "Sem Discurso de Ódio" Representações de candidatos despriorizados, como candidatos com deficiência em ambientes de entrevista.
Médio	Conteúdo que contém ação de sentimento negativo para grupos de identidade e outros que leva à promoção de ações contra grupos de identidade e sentimentos de superioridade. Isso inclui: Insulto, isolamento, zombaria Bandeira nazista, bandeira confederada e variações e mercadorias LGBTQIA+	Imagens que promovem a evasão social de [grupos de identidade] Imagens que retratam a teoria da melhoria racial e a eugenia
Alta	Conteúdo que contém sentimento negativo e discurso de ódio em relação a grupos de identidade que levam à geração de discursos de ódio ou crimes de ódio. Isso inclui: Racismo Ataques ao LGBTQIA+ Desabilitismo Discriminação baseada em sexo Simbolismo nazista glorificado, bandeira confederada, simbolismo ku klux klan Bandeira confederada violenta	Imagens antissemitas que retratam a "Cruz do Sul" que apresenta um saltire azul (cruz diagonal) com afiliação de violência óbvia (por exemplo, armas em exibição/uso)

Níveis de gravidade sexual

Nível de severidade	Descrição	Exemplo de imagem
Seguro	O conteúdo é seguro, mas contém imagens de caráter sexual usadas em um sentido geral. Isso inclui: Relações familiares e românticas Nudez não sexual Roupa Objetos comuns Pose ou atividade não sexual Acasalamento animal Bem-estar sexual	Representações de abraços ou contato físico não sexual Representações que retratam a demonstração física de afeto, como beijar sem língua e sem nudez
Baixo	Conteúdo que contém comportamentos ou atos sexualmente sugestivos. Isso inclui: Experiências pessoais Modelagem de moda Nudez em arte Arte corporal Exibição picante	Representações de pessoas
Médio	Conteúdo que contém material comercial e amador erótico e/ou pornográfico sem penetração visual fotográfica e participantes nus ou semi-nus envolvidos em cenas sexuais destinadas a provocar excitação sexual. Isso inclui: Modelagem sexual Nudez suave em arte Trabalhos no setor sexual ou lojas de produtos eróticos. Atividade sexual obscurecida Bastidores da produção pornô Pole dancing	Representações de intercurso que podem ser parcialmente obstruídas, mas ainda claramente presentes na imagem
Alta	Conteúdo que contém representações detalhadas explícitas de órgãos sexuais e atos sexuais, incluindo atos ilegais. Isso inclui: Pornografia soft-core e hard-core amadora Solicitação sexual Voyeurismo Sexo em arte BDSM sem consentimento ou estupro Exploração e abuso sexual infantil Aliciamento infantil Incesto	Representações de compromissos em atividades sexuais com animais ou cadáveres

Níveis de gravidade da violência

Nível de severidade	Descrição	Exemplo de imagem
Seguro	O conteúdo é seguro, mas contém imagens relacionadas à violência usadas em um sentido geral. Isso inclui: Pose para dormir ou deitar Objetos comuns Atividade não violenta Cordas não como um laço Ferramentas cortantes em uso na cozinha/costura Feridas, cicatrizes e tratamento cirúrgico Esporte de caça e tiro Brinquedo e armas falsas Prática de combate Danos de objeto e vandalismo Simbolismo terrorista não marcado	Representações de armas não realistas e ferramentas com lâminas
Baixo	Conteúdo que contém imagens relacionadas à violência e atua no mundo real ou em contextos fictícios com baixo gore. Isso inclui: Armas, armas e ferramentas com lâminas em exibição e em uso Cadáver não realista Violência não realista Armas animadas Lesão leve e experiência pessoal Cordas como um laço Morte em cenários históricos, educacionais ou funerários Simbolismo terrorista não realista Touradas	Representações de bandeiras do ISIS/al-Qaeda
Médio	Conteúdo que contém violência gráfica moderada e atos violentos direcionados a um alvo identificado. Isso inclui: Autópsia Cena do crime ou da morte Morte de animais (natural ou caçada), sacrifício animal, abuso de animais Escravidão Genocídio e assassinatos em massa em cenários históricos e educacionais Matadouro Violência doméstica e abuso físico Bullying - Comportamento agressivo e intencional, usado de forma repetida para intimidar ou prejudicar alguém, geralmente ocorrendo em ambientes escolares ou de trabalho. Armas de fogo e outras armas em uso contra um alvo	Representações do uso da força e coerção para dominar ou intimidar agressivamente um indivíduo
Alta	Conteúdo que contém representações detalhadas explícitas de violência e atos violentos em alto gore. Isso inclui: Lesões gráficas e morte Desmembramento, decapitação, queima viva Decomposição de cadáver Terrorismo, grupos terroristas e bandeiras Trabalho forçado e servidão, procedimento médico forçado Assédio Persistente Cadáver relacionado a terrorismo e crime de guerra Evento de tiro Outro extremismo	Representações da morte quando executadas por grupos terroristas identificáveis por bandeiras e símbolos do ISIS

Níveis de gravidade de automutilação

Nível de severidade	Descrição	Exemplo de imagem
Seguro	O conteúdo é seguro, mas contém imagens relacionadas à automutilação usadas em um sentido geral. Isso inclui: Baixa gordura corporal Ato de não automutilação Lesão acidental no corpo	Representações de saltar com um pára-quedas para fora de um avião
Baixo	Conteúdo que contém imagens relacionadas à automutilação e atua em contextos reais ou fictícios com baixo gore. Isso inclui: Cicatrizes Lesão por automutilação na recuperação Automutilação não realística Indivíduos ou animais emaciados	Representações de atos relacionados à automutilação, ferramentas, lesão e estado emocional
Médio	Conteúdo que contém imagens gráficas moderadas relacionadas à automutilação e ao suicídio. Isso inclui: Autópsia Cena do crime ou da morte Bullying - Comportamento agressivo e intencional, usado de forma repetida para intimidar ou prejudicar alguém, geralmente ocorrendo em ambientes escolares ou de trabalho.	Representações do uso da força e coerção para dominar agressivamente ou intimidar um indivíduo a praticar automutilação
Alta	Conteúdo que contém representações explícitas e detalhadas de automutilação e suicídio em alto nível de gore. Isso inclui: Ato iminente de automutilação Atos de automutilação Suicídio	Representações de suicídio intencional, onde uma pessoa cometeu suicídio pulando de um prédio alto

Solucionando problemas

Noções básicas sobre classificações de severidade

Se o conteúdo for classificado em um nível de severidade inesperado:

Examine as definições detalhadas de severidade para entender os critérios de classificação
Verifique se o contexto está ausente que alteraria a interpretação (educacional, histórica, fictícia)
Verifique se o idioma do conteúdo está na lista com suporte para obter a melhor precisão
Use anotações para ver todas as categorias detectadas, não apenas as filtradas

Ajustando a sensibilidade

Se você estiver vendo muitos falsos positivos ou negativos:

Examine as configurações de limite na configuração do guardrail
Considere se o tipo de conteúdo (educacional, médico, criativo) requer uma política de conteúdo personalizada
Para casos de uso com suporte, solicite uma configuração de filtro de conteúdo personalizado

Para obter mais informações, consulte Configurar guardrails e controles.

Próximas etapas

Comentários

Esta página foi útil?

Last updated on 2026-04-30