Microsoft Valutazioni di rischio e sicurezza foundry (anteprima) Nota sulla trasparenza (versione classica)

Visualizzazione attuale:Versione del portale Foundry (versione classica) - Passa alla versione per il nuovo portale Foundry

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero avere funzionalità limitate. Per altre informazioni, vedere Condizioni supplementari per l'utilizzo delle anteprime di Microsoft Azure.

Che cos'è una nota sulla trasparenza

Un sistema di intelligenza artificiale include non solo la tecnologia, ma anche le persone che lo useranno, le persone che ne saranno interessate e l'ambiente in cui viene distribuito. La creazione di un sistema adatto allo scopo previsto richiede una comprensione del funzionamento della tecnologia, delle funzionalità e delle limitazioni e di come ottenere le migliori prestazioni. le note sulla trasparenza di Microsoft consentono di comprendere il funzionamento della tecnologia di intelligenza artificiale, le scelte che i proprietari del sistema possono fare che influenzano le prestazioni e il comportamento del sistema e l'importanza di pensare all'intero sistema, tra cui la tecnologia, le persone e l'ambiente. È possibile usare le note sulla trasparenza durante lo sviluppo o la distribuzione del proprio sistema oppure condividerle con le persone che useranno o saranno interessate dal sistema.

le note sulla trasparenza di Microsoft fanno parte di uno sforzo più ampio Microsoft per mettere in pratica i principi di IA. Per altre informazioni, vedere Microsoft principi di IA.

Nozioni di base sulle valutazioni di rischio e sicurezza di Microsoft Foundry (anteprima)

Introduzione

I modelli venduti direttamente da Azure sono stati valutati da Microsoft in base agli standard di IA responsabile di Microsoft. Tutti gli altri modelli, inclusi i modelli Anthropic e i modelli Open originati da Hugging Face hub o Fireworks AI, sono prodotti non Microsoft ai sensi delle Condizioni del prodotto e non sono stati valutati da Microsoft.

Se un modello viene venduto direttamente da Azure o è un prodotto non Microsoft, i clienti devono condurre le proprie valutazioni di rischio e sicurezza. Le valutazioni di rischio e sicurezza di Foundry consentono agli utenti di valutare l'output dell'applicazione di intelligenza artificiale generativa per i rischi di contenuto testuale: contenuto odioso e sleale, contenuto sessuale, contenuto violento, contenuto autolesionismo, vulnerabilità di jailbreak diretto e indiretto e materiale protetto nel contenuto. Le valutazioni di sicurezza possono anche aiutare a generare set di dati antagonisti per accelerare e aumentare l'operazione di red-teaming. Le valutazioni di sicurezza di Foundry riflettono gli impegni Microsoft per garantire che i sistemi di IA siano costruiti in modo sicuro e responsabile, operando i principi di IA responsabile.

Termini chiave

Il contenuto odioso e ingiusto (per testo e immagini) si riferisce a qualsiasi lingua o immagine relativa all'odio verso o a rappresentazioni ingiuste di individui e gruppi sociali lungo fattori, tra cui, a titolo esemplificativo, razza, etnia, nazionalità, sesso, orientamento sessuale, religione, stato di immigrazione, capacità, aspetto personale e dimensioni del corpo. L'iniquità si verifica quando i sistemi di IA trattano o rappresentano gruppi sociali iniquamente, creando o contribuendo alle disuguaglianze sociali.
Il contenuto sessuale (per testo e immagini) include linguaggio o immagini riguardanti organi anatomici e genitali, relazioni romantiche, atti ritratti in termini erotici, gravidanza, atti sessuali fisici (tra cui aggressione o violenza sessuale), prostituzione, pornografia e abuso sessuale.
Il contenuto violento (per testo e immagini) include la lingua o le immagini relative alle azioni fisiche destinate a ferire, ferire, danneggiare o uccidere qualcuno o qualcosa del genere. Include anche descrizioni di armi e armi (e entità correlate come produttori e associazioni).
Il contenuto autolesionista (per il testo e le immagini) include linguaggio o immagini riguardanti azioni destinate a ferire, danneggiare il corpo o gravemente autolesionarsi.
Il contenuto del materiale protetto (per il testo) include contenuto testuale noto, ad esempio testi di canzoni, articoli, ricette e contenuti Web selezionati, che potrebbero essere restituiti da modelli linguistici di grandi dimensioni. Rilevando e impedendo la visualizzazione di materiale protetto, le organizzazioni possono mantenere la conformità ai diritti di proprietà intellettuale e preservare l'originalità del contenuto.
Il contenuto del materiale protetto (per le immagini) si riferisce a determinati contenuti visivi protetti protetti da copyright, ad esempio logo e marchi, opere d'arte o personaggi fittizi. Il sistema usa un modello di base da immagine a testo per identificare se tale contenuto è presente.
Il jailbreak diretto, gli attacchi di richiesta diretta o gli attacchi di iniezione delle richieste degli utenti si riferiscono a utenti che manipolano le richieste per iniettare input dannosi nei Modelli Linguistici di Grandi Dimensioni al fine di distorcere azioni e output. Un esempio di comando jailbreak è un attacco "DAN" (Do Anything Now), che può ingannare l'LLM nella generazione di contenuti inappropriati o ignorare le restrizioni imposte dal sistema.
Jailbreak indiretto, attacchi di prompt indiretti o attacchi di inserimento di richieste tra domini si riferiscono a quando le istruzioni dannose sono nascoste all'interno dei dati che un sistema di intelligenza artificiale elabora o genera contenuto coerente. Questi dati possono includere messaggi di posta elettronica, documenti, siti Web o altre origini non direttamente creati dallo sviluppatore o dall'utente e possono causare la generazione di contenuti inappropriati o ignorare le restrizioni imposte dal sistema.
La percentuale di difetti (rischio di contenuto) viene definita come percentuale di istanze nel set di dati di test che superano una soglia sulla scala di gravità rispetto all'intera dimensione del set di dati.
Il red-teaming ha storicamente descritto attacchi avversariali sistematici per identificare le vulnerabilità di sicurezza. Con l'aumento dei modelli di linguaggio di grandi dimensioni (LLM), il termine si è esteso oltre la cybersecurity tradizionale e si è evoluto nell'uso comune per descrivere molti tipi di test, test e attacchi di sistemi di intelligenza artificiale. Con i LLM, sia l'uso innocuo che quello dannoso possono produrre output potenzialmente dannosi, che possono assumere molte forme, tra cui contenuti nocivi, come discorsi d'odio, incitamento o glorificazione della violenza, riferimento a contenuti correlati all'autolesionismo o al contenuto sessuale.

Funzionalità

Comportamento del sistema

Foundry effettua il provisioning di un modello Azure OpenAI GPT-4o ottimizzato e orchestra attacchi adversari contro l'applicazione per generare un set di dati di test di alta qualità. Fornisce quindi un altro modello GPT-4o per eseguire l'annotazione sul set di dati di test per il contenuto e la sicurezza. Gli utenti forniscono l'endpoint dell'applicazione di intelligenza artificiale generativa che vogliono testare e le valutazioni di sicurezza restituiranno un set di dati di test statico su tale endpoint insieme all'etichetta di rischio del contenuto (molto bassa, bassa, media, alta) o all'etichetta di rilevamento dei rischi del contenuto (True o False) e al motivo dell'etichetta generata dall'intelligenza artificiale.

Casi d'uso

Usi previsti

Le valutazioni di sicurezza non sono destinate all'uso per scopi diversi da valutare i rischi per i contenuti e le vulnerabilità di jailbreak dell'applicazione di intelligenza artificiale generativa:

Valutazione prima del dispiegamento dell'applicazione di intelligenza artificiale generativa: Usando la procedura guidata di valutazione nel portale Foundry o l'SDK Azure AI Python, le valutazioni di sicurezza possono essere eseguite in modo automatizzato per identificare potenziali rischi di contenuto o di sicurezza.
Potenziare le operazioni di red teaming: usando il simulatore avversario, le valutazioni di sicurezza possono simulare interazioni avversarie con l'applicazione di intelligenza artificiale generativa per individuare i rischi per contenuti e sicurezza.
Comunicazione di contenuti e rischi per la sicurezza agli stakeholder: usando il portale Foundry, è possibile condividere l'accesso al progetto Foundry con i risultati delle valutazioni di sicurezza con i revisori o gli stakeholder della conformità.

Considerazioni sulla scelta di un caso d'uso

Incoraggiamo i clienti a sfruttare le valutazioni di sicurezza foundry nelle loro soluzioni o applicazioni innovative. Tuttavia, ecco alcune considerazioni quando si sceglie un caso d'uso:

Le valutazioni di sicurezza devono includere un approccio "human-in-the-loop": l'uso di valutazioni automatizzate, come quelle di sicurezza di Foundry, deve includere revisori umani, ad esempio esperti del settore, per verificare se l'applicazione di intelligenza artificiale generativa è stata testata accuratamente prima della distribuzione agli utenti finali.
Le valutazioni di sicurezza non includono una copertura completa totale: anche se le valutazioni di sicurezza possono offrire un modo per aumentare i test per potenziali rischi per contenuti o rischi per la sicurezza, non è stato progettato per sostituire le operazioni manuali di red-teaming specifiche per il dominio dell'applicazione, i casi d'uso e il tipo di utenti finali.
Scenari supportati:
- Per la simulazione avversaria: risposta alle domande, chat a più turni, riepilogo, ricerca, riscrittura del testo, generazione di contenuti non basati su fonti e basati su fonti.
- Per annotazione automatizzata: risposta alle domande e chat a più turni.
Il servizio attualmente è utilizzato meglio con il dominio inglese solo per generazioni testuali. Per le versioni future verranno prese in considerazione funzionalità aggiuntive, tra cui il supporto per più modelli.
La copertura dei rischi relativi ai contenuti forniti nelle valutazioni di sicurezza è selezionata attraverso un campionamento parziale da un numero limitato di gruppi e argomenti marginalizzati.
- La metrica di odio e ingiustizia include una certa copertura per un numero limitato di gruppi emarginati per il fattore demografico di genere (ad esempio, uomini, donne, persone non binarie) e di razza, ascendenza, etnia e nazionalità (ad esempio, Nero, Messicano, Europeo). Non tutti i gruppi emarginati in genere e razza, origini, etnie e nazionalità sono coperti. Altri fattori demografici rilevanti per l'odio e l'iniquità non hanno attualmente copertura (ad esempio, disabilità, sessualità, religione).
- Le metriche per il contenuto sessuale, violento e autolesionismo sono basate su una concettualizzazione preliminare di questi danni che sono meno sviluppati rispetto all'odio e all'iniquità. Ciò significa che possiamo fare meno attestazioni forti sulla copertura delle misurazioni e su come le misurazioni rappresentano i diversi modi in cui possono verificarsi questi danni. La copertura per questi tipi di contenuti include un numero limitato di argomenti relativi al sesso (ad esempio, violenza sessuale, relazioni, atti sessuali), violenza (ad esempio, abuso, ferimento di altri, rapimento) e autolesionismo (ad esempio, morte intenzionale, lesioni intenzionali, disturbi alimentari).
Le valutazioni di sicurezza delle "foundry" non consentono attualmente plug-in o estensibilità.
Per mantenere la qualità aggiornata e migliorare la copertura, si mira a una cadenza di rilasci futuri di miglioramento per le funzionalità di simulazione e annotazione antagoniste del servizio.

Limitazioni tecniche, fattori operativi e intervalli

Il campo dei modelli di linguaggio di grandi dimensioni continua a evolversi rapidamente, richiedendo un continuo miglioramento delle tecniche di valutazione per garantire una distribuzione sicura e affidabile del sistema di intelligenza artificiale. Le valutazioni sulla sicurezza di Foundry riflettono Microsoft'impegno di continuare a innovare nel campo della valutazione LLM. L'obiettivo è fornire gli strumenti migliori per valutare la sicurezza delle applicazioni di intelligenza artificiale generative, ma riconoscere una valutazione efficace è un lavoro continuo in corso.
La personalizzazione delle valutazioni di sicurezza Foundry è attualmente limitata. Ci aspettiamo che gli utenti forniscano l'endpoint dell'applicazione generativa di intelligenza artificiale e il nostro servizio restituirà un set di dati statico etichettato in base al rischio contenuto.
Infine, si noti che questo sistema non automatizza alcuna azione o attività, fornisce solo una valutazione degli output generativi dell'applicazione di intelligenza artificiale, che deve essere esaminato da un decision maker umano nel ciclo prima di scegliere di distribuire l'applicazione di intelligenza artificiale generativa o il sistema nell'ambiente di produzione per gli utenti finali.

Prestazioni del sistema

Procedure consigliate per migliorare le prestazioni del sistema

Quando si tiene conto del dominio, che potrebbe trattare alcuni contenuti in modo più sensibile rispetto ad altri, valutare la possibilità di modificare la soglia per calcolare il tasso di difetto.
Quando si usano le valutazioni di sicurezza automatizzate, potrebbe talvolta verificarsi un errore nelle etichette generate dall'intelligenza artificiale per la gravità di un rischio di contenuto o il relativo ragionamento. È disponibile un campo di feedback manuale con intervento umano per abilitare la convalida umana dei risultati della valutazione automatica della sicurezza.

Valutazione delle valutazioni di sicurezza di Foundry

Metodi di valutazione

Per tutti i tipi di rischio di contenuto supportati, è stata verificata internamente la qualità confrontando la frequenza delle corrispondenze approssimative tra gli etichettatori umani usando una scala di gravità di 0-7 e l'annotatore automatizzato delle valutazioni di sicurezza usando anche una scala di gravità di 0-7 sugli stessi set di dati. Per ogni area di rischio, abbiamo avuto sia etichettatori umani che un annotatore automatizzato per etichettare 500 testi in inglese, testi di un singolo turno, 250 generazioni di testo-a-immagine a turno singolo e 250 testi multimodali con generazioni di immagine-a-testo. Gli etichettatori umani e l'annotatore automatizzato non usano esattamente le stesse versioni delle linee guida per l'annotazione; mentre le linee guida dell'annotatore automatizzato derivano da quelle per gli esseri umani, sono divergenti in gradi diversi (con le linee guida sull'odio e l'iniquità che divergono maggiormente). Nonostante queste differenze lievi e moderate, riteniamo che sia ancora utile condividere tendenze generali e informazioni dettagliate rispetto al confronto delle corrispondenze approssimative. Nei confronti, abbiamo cercato corrispondenze con una tolleranza di 2 livelli (in cui l'etichetta umana corrisponde esattamente all'etichetta dell'annotatore automatico o era entro 2 livelli al di sopra o al di sotto della gravità), corrispondenze con una tolleranza di 1 livello e corrispondenze con una tolleranza di 0 livelli.

Risultati della valutazione

Nel complesso, abbiamo visto un tasso elevato di corrispondenze approssimative tra i rischi di autolesionismo e contenuto sessuale in tutti i livelli di tolleranza. Per la violenza e per l'odio e l'iniquità, il tasso di corrispondenza approssimativo tra i livelli di tolleranza era inferiore. Questi risultati sono stati in parte dovuti a una maggiore divergenza nel contenuto delle linee guida per le annotazioni per gli etichettatori umani rispetto all'annotatore automatizzato e in parte a causa della maggiore quantità di contenuto e complessità in linee guida specifiche.

Anche se i confronti sono tra entità che utilizzano linee guida per le annotazioni leggermente diverse (e quindi non sono confronti standard di accordo tra umani e modelli), questi confronti forniscono una stima della qualità che possiamo aspettarci dalle valutazioni di sicurezza di Foundry dati i parametri di questi confronti. In particolare, sono stati esaminati solo esempi in inglese, quindi i risultati potrebbero non generalizzare in altre lingue. Inoltre, ogni campione di set di dati è costituito da un solo turno e quindi sono necessari più esperimenti per verificare la generalizzabilità dei risultati della valutazione in scenari a più turni ,ad esempio una conversazione back-and-forth, tra cui query utente e risposte di sistema. I tipi di campioni usati in questi set di dati di valutazione possono anche influire notevolmente sulla frequenza approssimativa di corrispondenza tra le etichette umane e un annotatore automatizzato, se i campioni sono più facili da etichettare (ad esempio, se tutti i campioni sono privi di rischi per il contenuto), è possibile che la frequenza approssimativa delle corrispondenze sia più elevata. Anche la qualità delle etichette umane per una valutazione potrebbe influire sulla generalizzazione dei risultati.

Valutazione e integrazione delle valutazioni di sicurezza Foundry per il tuo utilizzo

La misurazione e la valutazione dell'applicazione di intelligenza artificiale generativa sono una parte fondamentale di un approccio olistico alla gestione dei rischi di intelligenza artificiale. Le valutazioni di sicurezza della fonderia sono complementari e devono essere utilizzate in combinazione con altre procedure di gestione dei rischi per l'IA. Gli esperti di dominio e i revisori del ciclo umano devono fornire una supervisione appropriata quando si usano valutazioni di sicurezza assistita dall'intelligenza artificiale nel ciclo di progettazione, sviluppo e distribuzione di applicazioni di intelligenza artificiale generative. È necessario comprendere le limitazioni e gli usi previsti delle valutazioni di sicurezza, prestare attenzione a non basarsi sugli output prodotti dalle valutazioni di sicurezza assistita dall'intelligenza artificiale Foundry in isolamento.

A causa della natura non deterministica delle VM, è possibile che si verifichino risultati falsi negativi o positivi, ad esempio un livello di gravità elevato di contenuto violento con punteggio "molto basso" o "basso". Inoltre, i risultati della valutazione potrebbero avere significati diversi per destinatari diversi. Ad esempio, le valutazioni di sicurezza potrebbero generare un'etichetta per la gravità "bassa" del contenuto violento che potrebbe non essere allineata alla definizione di un revisore umano del livello di gravità del contenuto violento specifico. Nel portale di Foundry è presente una colonna di feedback umano con pollici in su e pollici in giù quando si visualizzano i risultati della valutazione per mostrare le istanze approvate o contrassegnate come non corrette da un revisore umano. Si consideri il contesto del modo in cui i risultati possono essere interpretati per il processo decisionale da altri utenti, è possibile condividere la valutazione con e convalidare i risultati della valutazione con il livello di controllo appropriato per il livello di rischio nell'ambiente in cui opera ogni applicazione di intelligenza artificiale generativa.