Categorias de danos e níveis de gravidade no Microsoft Foundry

Os mecanismos de proteção da Microsoft Foundry garantem que os resultados gerados por IA estejam alinhados com diretrizes éticas e normas de segurança. O sistema de filtragem de conteúdos classifica conteúdos prejudiciais em quatro categorias — ódio, sexual, violência e auto-mutilação — cada uma classificada em quatro níveis de gravidade (seguro, baixo, médio e alto) tanto para texto como para imagens. Use estas categorias e níveis para configurar controlos de proteção que detetem e mitiguem riscos associados a conteúdos prejudiciais nas suas implementações e agentes de modelo.

Para uma visão geral de como funcionam os corrimãos de proteção, consulte Visão geral sobre os corrimãos de proteção e os controlos.

O sistema de segurança de conteúdos utiliza modelos neurais de classificação multiclasse para detetar e filtrar conteúdos prejudiciais tanto para texto como para imagem. O conteúdo detetado no nível de gravidade "seguro" é rotulado em anotações, mas não está sujeito a filtragem nem é configurável.

Nota

Os modelos de segurança do conteúdo do texto para as categorias de ódio, sexualidade, violência e automutilação são treinados e testados nas seguintes línguas: inglês, alemão, japonês, espanhol, francês, italiano, português e chinês. O serviço pode funcionar em muitas outras línguas, mas a precisão da deteção e as taxas de falsos positivos podem variar. Em todos os casos, realize testes rigorosos para verificar se o desempenho corresponde aos seus requisitos.

Descrições das categorias de dano

A tabela seguinte resume as categorias de danos suportadas pelos guardiões da Foundry:

Categoria	Descrição
Ódio e Justiça	Danos relacionados com ódio e justiça referem-se a qualquer conteúdo que ataque ou utilize linguagem discriminatória com referência a uma pessoa ou grupo de identidade, com base em certos atributos diferenciadores desses grupos. Esta categoria inclui, mas não se limita a: • Raça, etnia, nacionalidade • Grupos e expressão de identidade de género • Orientação sexual • Religião • Aparência pessoal e tamanho corporal • Estado de incapacidade • Assédio e intimidação
Sexual	Sexual descreve linguagem relacionada com órgãos anatómicos e genitais, relações românticas e atos sexuais, atos retratados em termos eróticos ou afetuosos, incluindo aqueles retratados como agressão ou ato sexual violento forçado contra a própria vontade. Esta categoria inclui, mas não se limita a: • Conteúdo vulgar • Prostituição • Nudez e pornografia • Abuso • Exploração infantil, abuso infantil, aliciamento infantil
Violência	Violência descreve linguagem relacionada com ações físicas destinadas a magoar, ferir, danificar ou matar alguém ou algo; descreve armas, armas de fogo e entidades relacionadas. Esta categoria inclui, mas não se limita a: • Armas • Bullying e intimidação • Terrorismo e extremismo violento • Perseguição
Auto-mutilação	A automutilação descreve linguagem relacionada com ações físicas destinadas a magoar, ferir, danificar intencionalmente o corpo ou suicidar-se. Esta categoria inclui, mas não se limita a: • Transtornos alimentares • Bullying e intimidação
Adesão à Tarefa	Ajuda a garantir que os Agentes de IA se comportam consistentemente em conformidade com as instruções do utilizador e os objetivos das tarefas. Identifica discrepâncias, como invocações de ferramentas desalinhadas, entrada ou saída inadequada da ferramenta em relação à intenção do utilizador, e inconsistências entre as respostas e as entradas do cliente.

Níveis de gravidade

O sistema de segurança de conteúdos classifica o conteúdo nocivo em quatro níveis de gravidade:

Nível de gravidade	Descrição
Seguro	Nenhum material nocivo detetado. Anotado mas nunca filtrado.
Baixo	Material ligeiramente prejudicial Inclui opiniões preconceituosas, representações leves em contextos fictícios ou experiências pessoais.
Média	Material moderadamente nocivo. Inclui representações gráficas, bullying ou conteúdos que promovam atos prejudiciais.
Alto	Material extremamente prejudicial. Inclui conteúdo extremista, representações explícitas ou conteúdo que endosse danos graves.

Como os níveis de gravidade correspondem à configuração do guardrail

Quando configura um controlo de proteção para uma categoria de dano, define um limiar de gravidade que determina qual o conteúdo que é sinalizado:

Definição do limiar	Comportamento
Desliga	A deteção está desativada para esta categoria. Nenhum conteúdo é sinalizado ou bloqueado.
Baixo	Sinaliza conteúdo em gravidade baixa e superior. Configuração menos restritiva.
Média	Sinaliza conteúdo em gravidade média ou superior.
Alto	Sinaliza apenas o conteúdo mais severo. Configuração mais restritiva.

O conteúdo ao nível "seguro" é sempre anotado, mas nunca bloqueado, independentemente da definição do limiar. Para configurar estes limiares, veja Como configurar guardas e controlos.

Definições detalhadas de severidade para texto

As tabelas seguintes fornecem descrições detalhadas e exemplos para cada nível de gravidade dentro de cada categoria de dano para o conteúdo do texto. Selecione o separador Definições de Gravidade para ver exemplos.

Aviso

O separador Definições de Gravidade neste documento contém exemplos de conteúdo prejudicial que pode ser perturbador para alguns leitores.

Níveis de severidade do ódio e da equidade

Nível de Gravidade	Descrição	Exemplo de Texto
Seguro	O conteúdo é seguro, mas pode conter termos relacionados com ódio e justiça usados em contextos genéricos e seguros, tais como: Education Média Estatísticas oficiais História Medicina Ciência Outros contextos semelhantes	`Black people should not be killed by police or mistreated just because of their skin color.`
Baixo	Conteúdo que contenha caracterização positiva ou proteção dos grupos de identidade, apresenta discriminação, estereótipos e opiniões ou atitudes preconceituosas, julgadoras ou opinativas relacionadas com discurso de ódio ou que têm como alvo grupos de identidade. Isto inclui: Calúnias em artigos de investigação, dicionários ou nos media com citação direta Discurso de ódio geral que tem como alvo objetos, indivíduos ou grupos Discurso de ódio limitado ou representações de sentimentos negativos em contextos ficcionais (por exemplo, videojogos, filmes, literatura)	`I hate you! You are so stupid.`
Média	Conteúdo que contém insultos, bullying, intimidação, desumanização ou depreciação de indivíduos ou grupos. Isto inclui: Linguagem que zomba e imita atributos dos grupos de identidade Descrever indivíduos ou grupos como inferiores ou deficientes Negar ou menosprezar a existência de grupos de identidade Textos que negam eventos históricos, bem documentados e violentos como o Holocausto, a escravatura ou a colonização	`Old people should not be hired to work, especially with computers. They need to stay in nursing homes.`
Alto	Conteúdos que contêm discurso de ódio como propaganda que ameaça ou apela à violência contra grupos de Identidade, radicaliza, recruta ou incita pessoas a juntarem-se a esforços extremistas ou a espalhar discurso de ódio. Isto inclui: Linguagem incendiária, ofensiva e vulgar direcionada a indivíduos ou grupos de identidade específicos Alegações de superioridade para justificar discriminação, segregação ou exclusão Textos que contenham qualquer forma de glorificação do simbolismo nazi e da SS, do KKK e da bandeira confederada fora de contextos históricos, educativos ou artísticos Textos que mostram preparação para crimes de ódio, louvor e glorificação da violência contra grupos de Identidade, ou que louvam, glorifiquem ou endossam genocídio	`[Identity Group] threaten our existence, so we should wipe them out.`

Níveis de gravidade sexual

Nível de Gravidade	Descrição	Exemplo de Texto
Seguro	O conteúdo é seguro, mas pode conter termos sexualmente relacionados usados em contextos genéricos e seguros, tais como: Educação Mídia Estatísticas oficiais História Medicina Ciência Menções a relações familiares ou românticas	`Fewer young adults are having sex than in previous generations.`
Baixo	Conteúdo que expressa opiniões preconceituosas, julgadoras ou opinativas sobre temas sexualmente relacionados ou que menciona termos relacionados sexualmente em experiências fictícias ou reais que não são extremamente gráficas. Isto inclui: Menções à anatomia sexual ou cenas de sexo em contextos ficcionais e artísticos Prescrições médicas e diagnóstico Experiências pessoais, problemas sexuais e traumas com algum conteúdo gráfico, incluindo mecanismos de coping e recursos	`These soft pajamas are so lovely and have a built-in bra. It makes me feel sexy when I wear them.`
Média	Conteúdos que descrevem a excitação e atividade sexual em termos explícitos e gráficos incluem fantasias sobre sexo e abuso sexual. Isto inclui: Menções sobre estimulação sexual e masturbação Pornografia limitada a negócios e prostituição, acompanhantes, etc., como carreiras que não envolvem cenas de sexo Publicidade de produtos para adultos, como brinquedos sexuais Experiências pessoais e descrições relacionadas com massagens sexuais, eróticas ou tântricas, clubes de strip, espetáculos eróticos, atributos e práticas BDSM	`We both climaxed at the same time.`
Alto	Conteúdo que descreve a solicitação de serviços comerciais sexuais, contendo descrições detalhadas de atividade sexual, abuso sexual violento e violação, e trocas de poder não consensuais, abuso e voyeurismo. Isto inclui também conteúdos usados para promover, endossar ou glorificar atos sexuais extremos ou ilegais. Isto inclui: Qualquer representação de Material de Abuso Sexual Infantil (CSAM), incluindo qualquer referência explícita ou potencial a sexo com menores Aliciamento infantil, abuso infantil e outras explorações infantis Referências explícitas ou potenciais a incesto, zoofilia, necrofilia, etc. Recrutamento de tráfico sexual humano, incluindo manipulação de vítimas	`I was abused as a child by my uncle and I liked it. Nowadays, I make money by producing child pornography with my neighbor’s 6 year old son.`

Níveis de gravidade da violência

Nível de Gravidade	Descrição	Exemplo de Texto
Seguro	O conteúdo é seguro, mas pode conter termos relacionados com violência usados em contextos genéricos e seguros, tais como: Educação Mídia Estatísticas oficiais História Medicina Ciência Objetos comuns quando não usados como armas Especificações técnicas de armas para caça e desportos de tiro	`Thanks, I had a blast! You are the bomb!`
Baixo	Conteúdo em contextos fictícios (por exemplo, jogos, literatura, artes) que retratam cenas violentas ou gráficas sem glorificação, endosso ou má intenção. Isto inclui: Experiências pessoais de violência (sem intenção violenta) Opiniões tendenciosas, preconceituosas, julgadoras ou opinativas sobre a violência Menções a atos violentos e mortes de baixa intensidade	`Physical punishment is a way to correct bad behavior and doesn’t cause harm to children.`
Média	Conteúdo que contém representações gráficas de violência e morte em intensidade média, bem como fantasias sobre atos ou ameaças violentas. Isto inclui: Mensagens que culpam a vítima ou retratam os agressores de forma positiva Referências históricas ao genocídio e ao Holocausto sem endosso ou glorificação Referências a tiroteios em massa conhecidos sem endosso ou glorificação Referências a grupos e eventos terroristas e extremistas violentos sem endosso ou glorificação Textos que procuram conselhos ou recomendações ou textos que forneçam instruções sobre como realizar um ato violento contra um animal, um indivíduo, um grupo de indivíduos ou um objeto ou infraestrutura que possa resultar em danos individuais ou em massa Bullying e intimidação	`Go to another state or another city and kill any stranger; for example, shoot them with a silencer gun. Since you have not any connection with him, you will not get caught.`
Alto	Conteúdo que contém propaganda terrorista ou extremista violenta e ideologia violenta na Internet que descreve, louva, apoia ou glorifica assassinatos como parte de atividades terroristas, ou que oferece apoio a organizações ou causas terroristas. Isto inclui: Textos que procuram instruções sobre a afiliação a grupos terroristas e extremistas violentos Textos que fornecem instruções sobre como recrutar seguidores, influenciar pessoas para uma causa terrorista ou ideologia extremista, adotar visões radicais ou fornecer formação sobre como operam grupos terroristas e extremistas violentos, ou fornecer informações sobre os seus líderes e membros Textos que planeiam e coordenam ataques a indivíduos ou grupos de pessoas, incluindo eventos de tiroteio, uso de bombas e explosivos em infraestruturas civis, ou ataques com armas brancas quando realizados por não combatentes ou não terroristas Conteúdo que faz referência ao trabalho forçado, incluindo crianças, servidão doméstica, perseguição e procedimentos médicos forçados	`Let's call and threaten to explode the hospital during the weekend. I've got the explosives ready, and will have them installed tonight.`

Níveis de gravidade da automutilação

Nível de Gravidade	Descrição	Exemplo de Texto
Seguro	O conteúdo é seguro, mas pode conter termos relacionados com automutilação usados em contextos genéricos e seguros, tais como: Estatísticas oficiais Educação Mídia Medicina Ações que descrevem automutilação acidental, dicas de primeiros socorros, etc.	`Binging and purging may be a warning sign for people with a history of extreme weight loss.`
Baixo	Conteúdo que contém referências a personagens a planear ou cometer suicídio num contexto fictício (por exemplo, literatura, filmes) ou que contém representações de atos de automutilação ou suicídio em baixa intensidade. Isto inclui: Opiniões pessoais tendenciosas, preconceituosas, julgadoras ou opinativas sobre auto-mutilação Associações com distúrbios alimentares, procurar ou fornecer instruções para uma perda de peso drástica e pouco saudável Experiências pessoais relacionadas com automutilação, incluindo procurar ajuda profissional	`I'm really struggling with self-loathing and thoughts of self-harm to relieve my distress after my friend took his own life last month. Please can someone give me any useful advice?`
Média	Conteúdos que zombam das vítimas ou sobreviventes de automutilação, como distúrbios alimentares ou suicídio, bem como do bullying e intimidação que incitam e promovem atos de automutilação. Isto inclui: Auto-lesão apresentada como solução para um problema Fantasias, desejos, desejos ou experiências pessoais sobre auto-mutilação/suicídio Textos que procuram ou oferecem conselhos, instruções ou recomendações sobre como praticar automutilação Bullying e intimidação que promovem e incitam atos de autolesão	`Go kill yourself, you are worthless.`
Alto	Conteúdo que inclui investigação para aconselhamento ou fornece instruções e métodos sobre como se envolver em automutilação que conduza à morte ou como cometer suicídio, bem como a glorificação e endosso do suicídio, ou outros tipos graves de automutilação. Isto inclui: Mensagens que instruem como escrever uma mensagem de despedida para a sua família Auto-decapitação Arder vivo	`Get a shotgun and blow your brains out. It won't even hurt. And you'll be remembered for ages, like Kurt Cobain or Ernest Hemingway. There's nothing bad about suicide. Actually it's noble.`

Definições detalhadas de gravidade para imagens

As tabelas seguintes fornecem descrições detalhadas e exemplos para cada nível de gravidade dentro de cada categoria de dano no conteúdo das imagens. Selecione o separador Definições de Gravidade para ver exemplos.

Conteúdo da imagem

Aviso
Definições de gravidade

Aviso

O separador Definições de Gravidade neste documento contém exemplos de conteúdo prejudicial que pode ser perturbador para alguns leitores.

Níveis de severidade do ódio e da equidade

Nível de Gravidade	Descrição	Exemplo de imagem
Seguro	O conteúdo é seguro, mas pode conter imagens relacionadas com ódio e justiça, sem sentimento ou sentimentos neutros, de forma não discriminatória e não ofensiva nos seguintes contextos ou semelhantes a: Jornalismo Histórico Medicina Jurídico Educação Geografia	Bandeiras não confederadas, por exemplo, bandeiras de países ou estados que apresentam cruzes Uma imagem da bandeira Union Jack da Grã-Bretanha Representação da emancipação de pessoas escravizadas nos EUA em fotografias históricas
Baixo	Conteúdo que contém sentimentos positivos, falsos positivos ou sentimentos negativos e tendenciosos que diferenciam grupos identitários dos outros. Este conteúdo destina-se a desencadear uma resposta emocional. Isto inclui: Proteção Simbolismo nazi, a bandeira confederada, simbolismo da Ku Klux Klan Estereótipos Discriminação no emprego	Representações do movimento 'Sem Discursos de Ódio' Representações de candidatos a emprego sem prioridade, como candidatos com deficiência em entrevistas
Média	Conteúdo que contém ações de sentimento negativo em relação a grupos identitários e outros, levando à promoção de ações contra grupos identitários e sentimentos de superioridade. Isto inclui: Insulto, isolamento, zombaria Bandeira nazi, bandeira confederada e variações e produtos LGBTQIA+	Imagens que promovem a evitação social dos [grupos de identidade] Imagens que retratam a teoria da melhoria racial e a eugenia
Alto	Conteúdo que contém sentimento negativo e discurso de ódio contra grupos de identidade, levando à geração de discurso de ódio ou crimes de ódio. Isto inclui: Racismo Ataques à LGBTQIA+ Discapacitação Discriminação baseada no sexo Simbolismo nazi glorificado, bandeira confederada, simbolismo do Ku Klux Klan Bandeira confederada violenta	Cenas antissemitas Imagens que representam a "Cruz do Sul", mostrando uma cruz em aspa azul (cruz diagonal) associada a uma violência evidente (como armas em exibição/uso).

Níveis de gravidade sexual

Nível de Gravidade	Descrição	Exemplo de imagem
Seguro	O conteúdo é seguro, mas contém imagens sexualmente relacionadas usadas de forma geral. Isto inclui: Relações familiares e amorosas Nudez não sexual Vestuário Objetos comuns Postura ou atividade não sexual Acasalamento animal Bem-estar sexual	Representações de abraços ou de contacto físico não sexual Representações de demonstrações físicas de afeto, como beijos sem língua e sem nudez
Baixo	Conteúdo que contenha comportamentos ou atos sexualmente sugestivos. Isto inclui: Experiências pessoais Modelagem de moda Nudez na arte Arte corporal Exibição atrevida	Representações de pessoas
Média	Conteúdo que contém conteúdo comercial e amador, erótico e/ou pornográfico, sem penetração fotográfica visual, e participantes nus ou semi-nus envolvidos em cenas sexuais destinadas a ser sexualmente excitantes. Isto inclui: Modelagem sexual Nudez suave na arte Empregos sexuais ou lojas Atividade sexual oculta Produção pornográfica nos bastidores Pole dance	Representações de relações sexuais que podem estar parcialmente obstruídas, mas ainda assim claramente presentes na imagem
Alto	Conteúdo que contém representações explícitas e detalhadas de órgãos sexuais e atos sexuais, incluindo atos ilegais. Isto inclui: Pornografia amadora de hardcore e soft-core Solicitação sexual Voyeurismo Sexo na arte BDSM sem consentimento ou violação Exploração e Abuso Sexual Infantil Cuidados de criança Incesto	Representações de envolvimentos em atividades sexuais com animais ou cadáveres

Níveis de gravidade da violência

Nível de Gravidade	Descrição	Exemplo de imagem
Seguro	O conteúdo é seguro, mas contém imagens relacionadas com violência usadas de forma geral. Isto inclui: Posição de dormir ou deitar Objetos comuns Atividade não violenta Cordas, não como laços Ferramentas afiadas em uso na cozinha/costura Feridas, cicatrizes e tratamento cirúrgico Desporto de caça e tiro Brinquedos e armas de mentira Prática de combate Danos causados por objetos e vandalismo Simbolismo terrorista sem marca	Representações de armas não realistas e ferramentas afiadas
Baixo	Conteúdo que contém imagens relacionadas com violência e atua em contextos reais ou fictícios com pouco gore. Isto inclui: Armas de fogo, armas e ferramentas afiadas em exposição e em uso Cadáver não realista Violência não realista Armas animadas Lesão ligeira e experiência pessoal Cordas como um laço Morte em contextos históricos, educacionais ou funerários Simbolismo terrorista não realista Tourada	Representações das bandeiras do ISIS/al-Qaeda
Média	Conteúdo que contenha violência gráfica moderada e atos violentos dirigidos a um alvo identificado. Isto inclui: Autópsia Cena do crime ou da morte Morte animal (natural ou caçada), sacrifício animal, abuso animal Escravatura Genocídio e assassinatos em massa em contextos históricos e educativos Matadouro Violência doméstica e abuso físico Bullying Armas de fogo e outras armas em uso contra um alvo	Representações do uso da força e da coerção para dominar ou intimidar agressivamente um indivíduo
Alto	Conteúdo que contém representações explícitas e detalhadas de violência e atos violentos em alto grau de violência. Isto inclui: Lesões gráficas e morte Desmembramento, decapitação, queima viva Decomposição de cadáveres Terrorismo, grupos terroristas e bandeiras Trabalho forçado e servidão, procedimentos médicos forçados Perseguição Cadáver no terrorismo e no crime de guerra Prova de tiro Outro extremismo	Representações da morte quando realizadas por grupos terroristas identificáveis por bandeiras e símbolos do ISIS

Níveis de gravidade da automutilação

Nível de Gravidade	Descrição	Exemplo de imagem
Seguro	O conteúdo é seguro, mas contém imagens relacionadas com automutilação usadas de forma geral. Isto inclui: Baixo teor de gordura corporal Ato de não automutilação Lesão corporal acidental	Representações de saltos de paraquedas de um avião
Baixo	Conteúdo que contém imagens relacionadas com auto-mutilação e que atua em contextos reais ou fictícios com pouca violência gore. Isto inclui: Cicatrizes Lesão por automutilação durante a recuperação Automutilação não realista Indivíduos ou animais emaciados	Representações de atos, ferramentas, lesão e estado emocional relacionados com auto-mutilação
Média	Conteúdo que contém imagens gráficas moderadas relacionadas com auto-mutilação e suicídio. Isto inclui: Autópsia Cena do crime ou da morte Bullying	Representações do uso da força e da coerção para dominar ou intimidar agressivamente um indivíduo até se auto-mutilar
Alto	Conteúdo que contém descrições explícitas e detalhadas de automutilação e suicídio com elevado nível de gore. Isto inclui: Ato de automutilação iminente Atos de automutilação Suicídio	Representações de suicídio intencional, onde uma pessoa cometeu suicídio ao saltar de um prédio alto

Resolução de problemas

Compreender classificações de gravidade

Se o conteúdo for classificado a um nível de gravidade inesperado:

Revise as definições detalhadas de gravidade para compreender os critérios de classificação
Verifica se falta contexto que altere a interpretação (educativa, histórica, ficcional)
Verifique se a linguagem do conteúdo está na lista suportada para maior precisão
Use anotações para ver todas as categorias detetadas, não apenas as filtradas

Ajuste da sensibilidade

Se estiver a ver demasiados falsos positivos ou negativos:

Revise as definições de limiar na configuração do corrimão de proteção
Considere se o tipo de conteúdo (educativo, médico, criativo) requer uma política de conteúdo personalizada
Para casos de uso suportados, solicite uma configuração personalizada de filtro de conteúdo

Para mais informações, consulte Configurar guarda-corpos e controlos.

Próximos passos

Comentários

Esta página foi útil?

Last updated on 2026-04-30