Categorie di danni e livelli di gravità in Microsoft Foundry

Le guardrail di Microsoft Foundry assicurano che gli output generati dall'IA siano allineati alle linee guida etiche e agli standard di sicurezza. Il sistema di filtro dei contenuti classifica il contenuto dannoso in quattro categorie, ovvero odio, violenza e autolesionismo, ognuno classificato a quattro livelli di gravità (sicuro, basso, medio e alto) sia per il testo che per il contenuto dell'immagine. Usare queste categorie e livelli per configurare i controlli di sicurezza che rilevano e attenuano i rischi associati a contenuti dannosi nelle implementazioni del modello e negli agenti.

Per una panoramica del funzionamento dei guardrail, vedere Cenni preliminari sulle guardie e i controlli.

Il sistema di sicurezza del contenuto usa modelli di classificazione multiclasse neurale per rilevare e filtrare il contenuto dannoso sia per il testo che per l'immagine. Il contenuto rilevato a livello di gravità "sicuro" è etichettato nelle annotazioni, ma non è soggetto a filtri e non è configurabile.

Nota

I modelli di sicurezza del contenuto testuale per le categorie di odio, violenza, violenza e autolesionismo sono formati e testati sulle seguenti lingue: inglese, tedesco, giapponese, spagnolo, francese, italiano, portoghese e cinese. Il servizio può funzionare in molte altre lingue, ma la precisione del rilevamento e le percentuali di falsi positivi possono variare. Nei casi di utilizzo delle chiamate, eseguire test approfonditi per convalidare che le prestazioni soddisfino i requisiti.

Descrizioni delle categorie di danni

La tabella seguente riepiloga le categorie di danni supportate dai guardrail di Foundry:

Categoria Descrizione
Odio e equità I danni correlati all'odio e all'equità fanno riferimento a qualsiasi contenuto che attacca o usa un linguaggio discriminatorio con riferimento a una persona o a un gruppo di identità basato su determinati attributi differenzianti di questi gruppi.

Questa categoria include, ma non è limitata a:
• Razza, etnia, nazionalità
• Gruppi di identità di genere ed espressione
• Orientamento sessuale
•Religione
• Aspetto personale e dimensioni del corpo
• Stato di disabilità
• Molestie e bullismo
Sessuale Il linguaggio sessuale descrive il linguaggio correlato a organi anatomici e genitali, relazioni romantiche e atti sessuali, atti rappresentati in termini erotici o affettuosi, inclusi quelli rappresentati come un assalto o un atto violento sessuale forzato contro la volontà di uno.

Questa categoria include, ma non è limitata a:
• Contenuto volgare
• Prostituzione
• Nudità e pornografia
•Abuso
• Sfruttamento minorile, abuso sui minori, adescamento di minori
Violenza Il termine "violenza" si riferisce al linguaggio relativo alle azioni fisiche destinate a ferire, danneggiare o uccidere qualcuno o qualcosa; descrive armi, pistole ed entità correlate.

Questa categoria include, ma non è limitata a:
•Armi
• Bullismo e intimidazione
• Terrorismo e estremismo violento
• Stalking
Autolesionismo L'autolesionismo si riferisce al linguaggio legato ad azioni fisiche destinate a ferire, danneggiare intenzionalmente il proprio corpo o addirittura uccidersi.

Questa categoria include, ma non è limitata a:
• Disturbi alimentari
• Bullismo e intimidazione
Adesione al compito Assicura che gli agenti di intelligenza artificiale si comportino in modo coerente in linea con le istruzioni utente e gli obiettivi delle attività. Identifica le discrepanze, ad esempio le chiamate allo strumento non allineate, l'input o l'output dello strumento non corretto rispetto alla finalità dell'utente e le incoerenze tra le risposte e l'input del cliente.

Livelli di gravità

Il sistema di sicurezza del contenuto classifica il contenuto dannoso a quattro livelli di gravità:

Livello di gravità Descrizione
Sicuro Nessun materiale dannoso rilevato. Annotato ma mai filtrato.
Basso Materiale leggermente dannoso. Include visualizzazioni pregiudiziose, rappresentazioni lievi in contesti fittizi o esperienze personali.
Medio Materiale dannoso moderato. Include rappresentazioni grafiche, bullismo o contenuti che promuovono atti dannosi.
Alto Materiale gravemente dannoso Include contenuti estremisti, rappresentazioni esplicite o contenuti che approvano gravi danni.

Come i livelli di gravità si associano alla configurazione dei limiti di sicurezza

Quando si configura un controllo di protezione per una categoria di danni, si imposta una soglia di gravità che determina il contenuto contrassegnato:

Impostazione soglia Comportamento
Fuori Il rilevamento è disabilitato per questa categoria. Nessun contenuto contrassegnato o bloccato.
Basso Contrassegna il contenuto con gravità inferiore o superiore. Impostazione meno restrittiva.
Medio Contrassegna il contenuto con gravità media e superiore.
Alto Contrassegna solo il contenuto più grave. Impostazione più restrittiva.

Il contenuto a livello "sicuro" è sempre annotato ma non viene mai bloccato, indipendentemente dall'impostazione della soglia. Per configurare queste soglie, vedere Come configurare protezioni e controlli.

Definizioni di gravità dettagliate per il testo

Le tabelle seguenti forniscono descrizioni dettagliate ed esempi per ogni livello di gravità all'interno di ogni categoria di danni per il contenuto di testo. Selezionare la scheda Definizioni di gravità per visualizzare gli esempi.

Contenuto del testo

Avviso

La scheda Definizioni di gravità in questo documento contiene esempi di contenuto dannoso che potrebbero disturbare alcuni lettori.

Definizioni dettagliate di gravità per le immagini

Le tabelle seguenti forniscono descrizioni dettagliate ed esempi per ogni livello di gravità all'interno di ogni categoria di danni per il contenuto dell'immagine. Selezionare la scheda Definizioni di gravità per visualizzare gli esempi.

Contenuto dell'immagine

Avviso

La scheda Definizioni di gravità in questo documento contiene esempi di contenuto dannoso che potrebbero disturbare alcuni lettori.

Risoluzione dei problemi

Informazioni sulle classificazioni di gravità

Se il contenuto viene classificato a un livello di gravità imprevisto:

  • Esaminare le definizioni di gravità dettagliate per comprendere i criteri di classificazione
  • Controllare se il contesto manca che cambierebbe l'interpretazione (educativo, storico, fittizio)
  • Verificare che la lingua del contenuto sia nell'elenco supportato per ottenere la massima precisione
  • Usare le annotazioni per visualizzare tutte le categorie rilevate, non solo quelle filtrate

Regolazione della sensibilità

Se stai riscontrando troppi falsi positivi o negativi:

  • Esamina le impostazioni della soglia nella configurazione dei guardrail
  • Valutare se il tipo di contenuto (didattico, medico, creativo) richiede criteri di contenuto personalizzati
  • Per i casi d'uso supportati, richiedere una configurazione del filtro contenuto personalizzata

Per altre informazioni, vedere Configurare protezioni e controlli.

Passaggi successivi