Categorie di danni e livelli di gravità in Microsoft Foundry

Le guardrail di Microsoft Foundry assicurano che gli output generati dall'IA siano allineati alle linee guida etiche e agli standard di sicurezza. Il sistema di filtro dei contenuti classifica il contenuto dannoso in quattro categorie, ovvero odio, violenza e autolesionismo, ognuno classificato a quattro livelli di gravità (sicuro, basso, medio e alto) sia per il testo che per il contenuto dell'immagine. Usare queste categorie e livelli per configurare i controlli di sicurezza che rilevano e attenuano i rischi associati a contenuti dannosi nelle implementazioni del modello e negli agenti.

Per una panoramica del funzionamento dei guardrail, vedere Cenni preliminari sulle guardie e i controlli.

Il sistema di sicurezza del contenuto usa modelli di classificazione multiclasse neurale per rilevare e filtrare il contenuto dannoso sia per il testo che per l'immagine. Il contenuto rilevato a livello di gravità "sicuro" è etichettato nelle annotazioni, ma non è soggetto a filtri e non è configurabile.

Nota

I modelli di sicurezza del contenuto testuale per le categorie di odio, violenza, violenza e autolesionismo sono formati e testati sulle seguenti lingue: inglese, tedesco, giapponese, spagnolo, francese, italiano, portoghese e cinese. Il servizio può funzionare in molte altre lingue, ma la precisione del rilevamento e le percentuali di falsi positivi possono variare. Nei casi di utilizzo delle chiamate, eseguire test approfonditi per convalidare che le prestazioni soddisfino i requisiti.

Descrizioni delle categorie di danni

La tabella seguente riepiloga le categorie di danni supportate dai guardrail di Foundry:

Categoria	Descrizione
Odio e equità	I danni correlati all'odio e all'equità fanno riferimento a qualsiasi contenuto che attacca o usa un linguaggio discriminatorio con riferimento a una persona o a un gruppo di identità basato su determinati attributi differenzianti di questi gruppi. Questa categoria include, ma non è limitata a: • Razza, etnia, nazionalità • Gruppi di identità di genere ed espressione • Orientamento sessuale •Religione • Aspetto personale e dimensioni del corpo • Stato di disabilità • Molestie e bullismo
Sessuale	Il linguaggio sessuale descrive il linguaggio correlato a organi anatomici e genitali, relazioni romantiche e atti sessuali, atti rappresentati in termini erotici o affettuosi, inclusi quelli rappresentati come un assalto o un atto violento sessuale forzato contro la volontà di uno. Questa categoria include, ma non è limitata a: • Contenuto volgare • Prostituzione • Nudità e pornografia •Abuso • Sfruttamento minorile, abuso sui minori, adescamento di minori
Violenza	Il termine "violenza" si riferisce al linguaggio relativo alle azioni fisiche destinate a ferire, danneggiare o uccidere qualcuno o qualcosa; descrive armi, pistole ed entità correlate. Questa categoria include, ma non è limitata a: •Armi • Bullismo e intimidazione • Terrorismo e estremismo violento • Stalking
Autolesionismo	L'autolesionismo si riferisce al linguaggio legato ad azioni fisiche destinate a ferire, danneggiare intenzionalmente il proprio corpo o addirittura uccidersi. Questa categoria include, ma non è limitata a: • Disturbi alimentari • Bullismo e intimidazione
Adesione al compito	Assicura che gli agenti di intelligenza artificiale si comportino in modo coerente in linea con le istruzioni utente e gli obiettivi delle attività. Identifica le discrepanze, ad esempio le chiamate allo strumento non allineate, l'input o l'output dello strumento non corretto rispetto alla finalità dell'utente e le incoerenze tra le risposte e l'input del cliente.

Livelli di gravità

Il sistema di sicurezza del contenuto classifica il contenuto dannoso a quattro livelli di gravità:

Livello di gravità	Descrizione
Sicuro	Nessun materiale dannoso rilevato. Annotato ma mai filtrato.
Basso	Materiale leggermente dannoso. Include visualizzazioni pregiudiziose, rappresentazioni lievi in contesti fittizi o esperienze personali.
Medio	Materiale dannoso moderato. Include rappresentazioni grafiche, bullismo o contenuti che promuovono atti dannosi.
Alto	Materiale gravemente dannoso Include contenuti estremisti, rappresentazioni esplicite o contenuti che approvano gravi danni.

Come i livelli di gravità si associano alla configurazione dei limiti di sicurezza

Quando si configura un controllo di protezione per una categoria di danni, si imposta una soglia di gravità che determina il contenuto contrassegnato:

Impostazione soglia	Comportamento
Fuori	Il rilevamento è disabilitato per questa categoria. Nessun contenuto contrassegnato o bloccato.
Basso	Contrassegna il contenuto con gravità inferiore o superiore. Impostazione meno restrittiva.
Medio	Contrassegna il contenuto con gravità media e superiore.
Alto	Contrassegna solo il contenuto più grave. Impostazione più restrittiva.

Il contenuto a livello "sicuro" è sempre annotato ma non viene mai bloccato, indipendentemente dall'impostazione della soglia. Per configurare queste soglie, vedere Come configurare protezioni e controlli.

Definizioni di gravità dettagliate per il testo

Le tabelle seguenti forniscono descrizioni dettagliate ed esempi per ogni livello di gravità all'interno di ogni categoria di danni per il contenuto di testo. Selezionare la scheda Definizioni di gravità per visualizzare gli esempi.

Avviso

La scheda Definizioni di gravità in questo documento contiene esempi di contenuto dannoso che potrebbero disturbare alcuni lettori.

Livelli di gravità di odio e correttezza

Livello di gravità	Descrizione	Testo di esempio
Sicuro	Il contenuto è sicuro, ma può contenere termini correlati all'odio e all'equità usati in contesti generici e sicuri, ad esempio: Istruzione Media Statistiche ufficiali Storia Medicina Scienza Altri contesti simili	`Black people should not be killed by police or mistreated just because of their skin color.`
Basso	Contenuto che contiene la caratterizzazione positiva o la protezione dei gruppi di identità, mostra discriminazione, stereotipi e pregiudizi, opinioni o atteggiamenti correlati all'incitamento all'odio o al targeting dei gruppi di identità. Sono inclusi: Insulti in articoli di ricerca, dizionari o media con una citazione diretta Discorso di odio generale destinato a oggetti, individui o gruppi Discorso di odio limitato o rappresentazioni di sentimenti negativi in contesti fittizi (ad esempio, giochi, film, letteratura)	`I hate you! You are so stupid.`
Medio	Contenuto che contiene insulti, bullismo, intimidazione, de-umanizzazione o etichettatura di individui o gruppi. Sono inclusi: Linguaggio che deride e imita gli attributi dei gruppi di identità Descrizione di individui o gruppi come inferiori o carenti Negazione o svalutazione dell'esistenza di gruppi identitari Testi che negano eventi storici, ben documentati e violenti come Olocausto, schiavizzazione o colonizzazione	`Old people should not be hired to work, especially with computers. They need to stay in nursing homes.`
Alto	Contenuto che contiene discorso d'odio in quanto propaganda che minaccia o invita alla violenza contro gruppi basati sull'identità, radicalizza, recluta o incita le persone a unirsi agli sforzi estremisti o diffondere discorso d'odio. Sono inclusi: Incendiario, offensivo e volgare linguaggio destinato a individui o gruppi di identità specifici Attestazioni di superiorità per giustificare discriminazione, segregazione o esclusione Testi che contengono qualsiasi forma di glorificazione del simbolismo nazista e SS, KKK e la bandiera confederata al di fuori di impostazioni storiche, educative o artistiche Testi che mostrano la preparazione del crimine d'odio, lodano e glorificano la violenza contro i gruppi identitari, o che elogiano, glorificano, o approvano il genocidio	`[Identity Group] threaten our existence, so we should wipe them out.`

Livelli di gravità sessuale

Livello di gravità	Descrizione	Testo di esempio
Sicuro	Il contenuto è sicuro ma può contenere termini sessualmente correlati utilizzati in contesti generici e sicuri, ad esempio: Istruzione Media Statistiche ufficiali Storia Medicina Scienza Menzioni di relazioni familiari o romantiche	`Fewer young adults are having sex than in previous generations.`
Basso	Contenuti che esprimono opinioni pregiudizie, giudicanti o opinioni su argomenti sessualmente correlati o menzioni di termini sessualmente correlati in esperienze fittizie o reali che non sono estremamente grafiche. Sono inclusi: Menzioni di anatomia sessuale o scene sessuali in contesti fittizi e artistici Prescrizioni mediche e diagnosi Esperienze personali, problemi sessuali e traumi con alcuni contenuti grafici, tra cui meccanismi di gestione e risorse	`These soft pajamas are so lovely and have a built-in bra. It makes me feel sexy when I wear them.`
Medio	Contenuti che descrivono l'eccitazione sessuale e l'attività in termini espliciti e grafici, includono fantasie su sesso e abuso sessuale. Sono inclusi: Menzioni di stimolazione sessuale e masturbazione Pornografia limitata a affari e prostituzione, scorta, ecc. come carriere senza scene sessuali Pubblicità per prodotti per adulti come giocattoli sessuali Esperienze personali e descrizioni correlate a massaggi sessuali, erotici o tantrici, strip club, spettacoli erotici, attributi e pratiche BDSM	`We both climaxed at the same time.`
Alto	Contenuti che descrivono la richiesta di servizi commerciali sessuali, contenenti descrizioni dettagliate dell'attività sessuale, abusi sessuali violenti e stupri e scambi di potere non consensuali, abusi e voyeurismo. Questo include anche contenuti utilizzati per promuovere, approvare o glorificare atti sessuali estremi o illegali. Sono inclusi: Qualsiasi rappresentazione di materiale pedopornografico (CSAM), incluso qualsiasi riferimento esplicito o potenziale a rapporti sessuali con minori. Adescamento di minori, abuso di bambini e altri sfruttamenti di minori Riferimenti espliciti o potenziali a incest, zoofilia, necrofilia e così via. Reclutamento del traffico sessuale umano, inclusa la manipolazione delle vittime	`I was abused as a child by my uncle and I liked it. Nowadays, I make money by producing child pornography with my neighbor’s 6 year old son.`

Livelli di gravità della violenza

Livello di gravità	Descrizione	Testo di esempio
Sicuro	Il contenuto è sicuro, ma può contenere termini correlati alla violenza usata in contesti generici e sicuri, ad esempio: Istruzione Media Statistiche ufficiali Storia Medicina Scienza Oggetti comuni quando non vengono usati come armi Sport di caccia o tiro a fuoco e specifiche tecniche di pistola	`Thanks, I had a blast! You are the bomb!`
Basso	Contenuti in contesti fittizi (ad esempio, giochi, letteratura, arti) che raffigurano scene violente o grafiche senza glorificazione, approvazione o mal intento. Sono inclusi: Esperienze personali di violenza (senza intenti violenti) Opinioni pregiudizievoli, parziali, giudicanti o prevenute in merito alla violenza Menzioni di atti violenti e morte a bassa intensità	`Physical punishment is a way to correct bad behavior and doesn’t cause harm to children.`
Medio	Contenuto che contiene rappresentazioni grafiche di violenza e morte a media intensità, nonché fantasie su atti violenti o minacce. Sono inclusi: Testi che mettono la vittima in colpa o raffigurano autori in una luce positiva Riferimenti storici al genocidio e all'Olocausto senza approvazione o glorificazione Riferimenti a sparatorie di massa note senza approvazione o glorificazione Riferimenti a gruppi estremisti terroristici e violenti senza approvazione o glorificazione Testi che cercano consigli o consigli o testi che forniscono istruzioni su come eseguire un atto violento contro un animale, un individuo, un gruppo di individui o un oggetto o un'infrastruttura che può causare danni individuali o di massa Bullismo e intimidazione	`Go to another state or another city and kill any stranger; for example, shoot them with a silencer gun. Since you have not any connection with him, you will not get caught.`
Alto	Contenuti che contengono propaganda terroristica o estremista violenta e ideologia violenta su Internet, che descrivono, elogiano, supportano, approvano o glorificano atti di violenza come parte dell'attività terroristica e forniscono assistenza a organizzazioni terroristiche o cause. Sono inclusi: Testi che cercano istruzioni sull'affiliazione con gruppi estremisti terroristici e violenti Testi che forniscono istruzioni su come reclutare seguaci, influenzare le persone verso una causa terroristica o ideologia estremista, adottare opinioni radicali o fornire formazione su come operano gruppi terroristici e violenti o fornire informazioni sui loro leader e membri Testi che pianificano e coordinano attacchi su individui o gruppi di persone, inclusi gli eventi di tiro, l'uso di bombe ed esplosivi sull'infrastruttura civile, o attacchi di armi a lama quando vengono eseguiti da non combattenti o non terroristi Contenuto che fa riferimento al lavoro forzato tra cui bambini, servitù domestica, stalking e procedure mediche forzate	`Let's call and threaten to explode the hospital during the weekend. I've got the explosives ready, and will have them installed tonight.`

Livelli di gravità dei comportamenti autolesionisti

Livello di gravità	Descrizione	Testo di esempio
Sicuro	Il contenuto è sicuro, ma può contenere termini correlati all'autolesionismo usato in contesti generici e sicuri, ad esempio: Statistiche ufficiali Istruzione Media Medico Azioni che descrivono l'autolesionismo accidentale, i suggerimenti per il primo soccorso e così via.	`Binging and purging may be a warning sign for people with a history of extreme weight loss.`
Basso	Contenuto che contiene riferimenti a personaggi che pianificano o commettono suicidio in un contesto fittizio (ad esempio, letteratura, film) o contengono rappresentazioni di atti autolesionici o suicidi a bassa intensità. Sono inclusi: Visioni personali di parte, pregiudicate, giudicanti o faziose sull'autolesionismo Associazioni con disturbi alimentari, ricerca o fornitura di istruzioni per la perdita di peso drastica e non salutare Esperienze personali correlate all'autolesionismo, inclusa la ricerca di un aiuto professionale	`I'm really struggling with self-loathing and thoughts of self-harm to relieve my distress after my friend took his own life last month. Please can someone give me any useful advice?`
Medio	Contenuto che simula vittime o sopravvissuti di autolesionismo, come disturbi alimentari o suicidio, nonché bullismo e intimidazione che incita e promuove atti autolesionisti. Sono inclusi: Autolesionismo presentato come soluzione a un problema Fantasie, desiderio, desideri o esperienze personali su autolesionismo/suicidio Testi che cercano o forniscono consigli, istruzioni o consigli su come eseguire autolesionismo Bullismo e intimidazione che incitano e promuovono atti di autolesionismo	`Go kill yourself, you are worthless.`
Alto	Contenuto che include la ricerca di consigli o fornisce istruzioni e metodi su come impegnarsi in autolesionismo che porta alla morte o come commettere suicidio, nonché glorificazione e approvazione del suicidio, o altri tipi gravi di autolesionismo. Sono inclusi: Testi che indicano come scrivere un messaggio di addio alla tua famiglia Auto-decapitazione Bruciare vivo	`Get a shotgun and blow your brains out. It won't even hurt. And you'll be remembered for ages, like Kurt Cobain or Ernest Hemingway. There's nothing bad about suicide. Actually it's noble.`

Definizioni dettagliate di gravità per le immagini

Le tabelle seguenti forniscono descrizioni dettagliate ed esempi per ogni livello di gravità all'interno di ogni categoria di danni per il contenuto dell'immagine. Selezionare la scheda Definizioni di gravità per visualizzare gli esempi.

Contenuto dell'immagine

Avviso
Definizioni di gravità

Avviso

La scheda Definizioni di gravità in questo documento contiene esempi di contenuto dannoso che potrebbero disturbare alcuni lettori.

Livelli di gravità di odio e correttezza

Livello di gravità	Descrizione	Esempio di immagine
Sicuro	Il contenuto è sicuro, ma può contenere immagini legate all'odio o all'equità senza sentimenti o accompagnate da sentimenti neutrali in modo non discriminatorio e non offensivo nei seguenti contesti o in contesti simili a: Giornalistica Storico Medico Legale Educativo Geografica	Bandiere non confederate, ad esempio bandiere di paesi o stati che presentano croci Un'immagine della bandiera union jack della Gran Bretagna Rappresentazione di emancipazione di persone schiavi negli Stati Uniti nelle foto storiche
Basso	Contenuto che contiene sentimenti positivi, sentimenti falsi positivi o sentimenti negativi, sentimenti distorti che differenziano i gruppi di identità da altri. Questo contenuto è progettato per attivare una risposta emotiva. Sono inclusi: Protezione Simbolismo nazista, la bandiera confederata, il simbolismo del Ku Klux Klan Stereotipi Discriminazione dell'occupazione	Rappresentazioni del movimento "No Hate Speech" (Nessun parlato di odio) Rappresentazioni di candidati di lavoro deprioritizzati, ad esempio candidati con disabilità nelle impostazioni del colloquio
Medio	Contenuto che presenta azioni di carattere negativo verso gruppi di identità e altri, portando alla promozione di condotte contro gruppi di identità e sentimenti di superiorità. Sono inclusi: Insulto, isolamento, scherno Bandiera nazista, bandiera confederata, e varianti LGBTQIA+ e merci	Immagini che promuovono la prevenzione sociale di [gruppi di identità] Immagini che illustrano la teoria del miglioramento razziale e l'eugenica
Alto	Contenuto che contiene sentimenti negativi e discorsi di odio verso i gruppi di identità che portano alla generazione di discorsi di odio o crimini d'odio. Sono inclusi: Razzismo Attacchi a LGBTQIA+ Disabilismo Discriminazione basata sul sesso Simbolismo nazista glorificato, bandiera confederata, simbolismo Klux Klan Bandiera confederata violenta	Immagini antisemite che raffigurano la "Croce meridionale" che presenta un saltire blu (croce diagonale) con affiliazione di violenza ovvia (ad esempio pistole in visualizzazione/uso)

Livelli di gravità sessuale

Livello di gravità	Descrizione	Esempio di immagine
Sicuro	Il contenuto è sicuro ma contiene immagini sessualmente correlate usate in senso generale. Sono inclusi: Relazioni familiari e romantiche Nudità non sessuale Abbigliamento Oggetti comuni Posa o attività non sessuale Accoppiamento animale Benessere sessuale	Rappresentazioni di abbracci o di rappresentazioni di contatto fisico non sessuale che raffigurano la visualizzazione fisica di affetto come baciare senza lingua e senza nudità
Basso	Contenuto che contiene comportamenti sessualmente allusi o atti. Sono inclusi: Esperienze personali Modellazione della moda Nudità nelle opere d'arte Arte del corpo Visualizzazione vivida	Rappresentazioni di persone
Medio	Contenuti che includono materiale erotico e/o pornografico commerciale e amatoriale senza penetrazione visiva fotografica e partecipanti nudi o semi-nudi coinvolti in scene sessuali destinate a essere eccitanti sessualmente. Sono inclusi: Modellazione sessuale Nudità morbida nelle opere d'arte Lavori sessuali o negozi Attività sessuale oscurata Backstage di produzione porno Pole dance	Rappresentazioni di rapporti sessuali che possono essere parzialmente occlusi ma ancora chiaramente presenti nell'immagine
Alto	Contenuto che contiene rappresentazioni esplicite dettagliate di organi sessuali e atti sessuali, inclusi atti illegali. Sono inclusi: Pornografia amatoriale softcore e hardcore Richiesta sessuale Voyeurismo Sesso nelle opere d'arte BDSM senza consenso o stupro Sfruttamento sessuale e abuso di bambini Pulitura dei bambini Incesto	Rappresentazioni di impegni nelle attività sessuali con animali o cadaveri

Livelli di gravità della violenza

Livello di gravità	Descrizione	Esempio di immagine
Sicuro	Il contenuto è sicuro, ma contiene immagini correlate alla violenza usate in senso generale. Sono inclusi: Dormire o sdraiarsi Oggetti comuni Attività non violente Corde non come un noose Utensili a lama in uso in cucina/cucito Ferite, cicatrici e trattamenti chirurgici Sport di caccia e tiro Giocattoli e finte pistole Pratica di combattimento Danni all'oggetto e vandalismo Simboli terroristici non marchiati	Rappresentazioni di armi non realistiche e strumenti a lama
Basso	Contenuto che contiene immagini di violenza e atti in contesti reali o fittizi con bassa intensità di sangue. Sono inclusi: Armi da fuoco, armi e strumenti a lama esposti e in uso Cadavere non realistico Violenza non realistica Armi animate Lesioni leggere e esperienza personale Corde come un noose Morte in impostazioni storiche, educative o funerarie Simbolismo terroristico non realistico Corrida	Rappresentazioni delle bandiere dell'ISIS/al-Qaida
Medio	Contenuto che contiene violenza grafica moderata e atti violenti mirati a un bersaglio identificato. Sono inclusi: Autopsia Scena del crimine o della morte Morte animale (naturale o cacciata), sacrificio animale, abuso di animali Schiavitù Genocidio e uccisioni di massa in luoghi storici, educativi Macello Violenza domestica e abusi fisici Bullismo Pistole e armi in uso contro un bersaglio	Rappresentazioni dell'uso di forza e coercizione per dominare o intimidire aggressivamente un individuo
Alto	Contenuto che contiene rappresentazioni esplicite e dettagliate di violenza e atti violenti ad alta intensità di crudeltà. Sono inclusi: Lesioni grafiche e morte Smembramento, decapitazione, bruciare vivo Scomposizione del cadavere Terrorismo, gruppi terroristici e bandiere Lavoro forzato e servitù, procedura medica forzata Atti persecutori Cadavere nel terrorismo e nel crimine di guerra Evento fotografico Altro estremismo	Rappresentazioni della morte quando eseguite da gruppi terroristici identificabili da bandiere e simboli dell'ISIS

Livelli di gravità dei comportamenti autolesionisti

Livello di gravità	Descrizione	Esempio di immagine
Sicuro	Il contenuto è sicuro ma contiene immagini correlate all'autolesionismo usate in senso generale. Sono inclusi: Grasso corporeo basso Atto di non autolesionismo Lesioni accidentali al corpo	Rappresentazioni di saltare con un paracadute fuori da un aereo
Basso	Contenuto che contiene immagini correlate all'autolesionismo e agisce in contesti reali o fittizi con basso gore. Sono inclusi: Cicatrici Lesioni da autolesionismo in fase di recupero Autolesionismo non realistico Individui o animali emaciati	Rappresentazioni di atti correlati all'autolesionismo, strumenti, lesioni e stato emotivo
Medio	Contenuto che contiene immagini grafiche moderate correlate all'autolesionismo e al suicidio. Sono inclusi: Autopsia Scena del crimine o della morte Bullismo	Rappresentazioni dell'uso di forza e coercizione per intimidire o dominare aggressivamente un individuo fino a indurlo all'autolesionismo.
Alto	Contenuto che contiene rappresentazioni esplicite e dettagliate di autolesionismo e suicidio con violenza estrema. Sono inclusi: Atto imminente di autolesionismo Atti di autolesionismo Suicidio	Rappresentazioni di suicidio intenzionale, dove una persona si è suicidata saltando fuori un edificio alto

Risoluzione dei problemi

Informazioni sulle classificazioni di gravità

Se il contenuto viene classificato a un livello di gravità imprevisto:

Esaminare le definizioni di gravità dettagliate per comprendere i criteri di classificazione
Controllare se il contesto manca che cambierebbe l'interpretazione (educativo, storico, fittizio)
Verificare che la lingua del contenuto sia nell'elenco supportato per ottenere la massima precisione
Usare le annotazioni per visualizzare tutte le categorie rilevate, non solo quelle filtrate

Regolazione della sensibilità

Se stai riscontrando troppi falsi positivi o negativi:

Esamina le impostazioni della soglia nella configurazione dei guardrail
Valutare se il tipo di contenuto (didattico, medico, creativo) richiede criteri di contenuto personalizzati
Per i casi d'uso supportati, richiedere una configurazione del filtro contenuto personalizzata

Per altre informazioni, vedere Configurare protezioni e controlli.

Passaggi successivi

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-30