Che cos'è il red teaming nell'ambito dell'intelligenza artificiale?
Red teaming è un termine utilizzato nel settore della sicurezza informatica per descrivere il processo di verifica delle vulnerabilità della sicurezza usando attacchi antagonisti sistematici. Il red teaming viene eseguito per rafforzare la sicurezza dei sistemi di un'organizzazione. Il red teaming è distinto dagli attacchi non autorizzati da parte di terzi malintenzionati.
L'introduzione di modelli linguistici di grandi dimensioni (LLM) negli ecosistemi di applicazioni richiede che i team rossi includano tecniche antagonistiche su esame, test e attacchi di sistemi di intelligenza artificiale. L'uso antagonista e persino non dannoso delle applicazioni abilitate per l'intelligenza artificiale può produrre output potenzialmente dannosi. Ad esempio, il chatbot di un'azienda sui social media viene danneggiato per generare discorsi di odio o per esaltare la violenza. L'utilizzo antagonista può anche portare le applicazioni di intelligenza artificiale a emettere dati privati, a creare attacchi e causare altri effetti negativi sulla sicurezza downstream.
Il diagramma seguente offre una panoramica dell'espansione dell'ambito che si è verificato con il red teaming dopo l'introduzione di LLM negli ecosistemi di applicazioni.
Il red teaming di intelligenza artificiale avviene a due livelli: a livello LLM di base, ad esempio attacchi red team contro un LLM popolare o a livello di applicazione in cui un'applicazione abilitata per l'intelligenza artificiale usa un LLM come parte dell'infrastruttura back-end. L'approccio a due livelli comporta i risultati seguenti:
- Il red teaming del modello consente di identificare fin dalle prime fasi del processo come i modelli possano essere utilizzati in modo improprio, a definire le funzionalità del modello e a comprendere le limitazioni del modello. Queste informazioni dettagliate possono essere inserite nel processo di sviluppo del modello e possono migliorare le versioni future del modello.
- Il red teaming a livello di applicazione adotta un approccio a livello di sistema, di cui l'LLM di base è una parte. Ad esempio, quando si esegue il red teaming per intelligenza artificiale rispetto a un assistente di ricerca basato sull'intelligenza artificiale, il modello linguistico di grandi dimensioni (LLM) di base deve essere analizzato insieme a un'esperienza di ricerca più ampia. L'approccio a livello di sistema consente di identificare gli errori oltre ai meccanismi di sicurezza a livello di modello, includendo i trigger di sicurezza specifici dell'applicazione complessiva.
Le organizzazioni con pratiche di intelligenza artificiale mature dispongono di Red Team di intelligenza artificiale dedicati che eseguono questi test avversari su LLM, applicazioni e servizi abilitati all'intelligenza artificiale. Questi team hanno appreso quanto segue:
- Il red teaming per intelligenza artificiale è più completo rispetto al red teaming tradizionale
- Il red teaming per intelligenza artificiale si basa sugli errori di utenti malintenzionati e innocui
- I sistemi di intelligenza artificiale generativi con red teaming richiedono più tentativi nello stesso test
- I sistemi di intelligenza artificiale si evolvono costantemente
- La mitigazione degli errori di intelligenza artificiale richiede una difesa approfondita
Il red teaming, quando applicato all'intelligenza artificiale, è più esteso rispetto al red teaming tradizionale.
Il red teaming per intelligenza artificiale è attualmente considerato un termine generico che fa riferimento all'analisi dei risultati di sicurezza e dell'IA responsabile. Il red teaming per intelligenza artificiale si sovrappone agli obiettivi tradizionali red teaming e include i modelli linguistici di grandi dimensioni (LLM) come vettore di attacco. Il red teaming per intelligenza artificiale controlla le difese contro le nuove classi di vulnerabilità di sicurezza, come l'inserimento di richieste e l'avvelenamento del modello. Il red teaming dell'intelligenza artificiale include anche l'analisi dei risultati che potrebbero danneggiare la reputazione dell'organizzazione, come le questioni di equità e i contenuti dannosi. L'esecuzione del red teaming per intelligenza artificiale prima che un carico di lavoro abilitato per un modello linguistico di grandi dimensioni (LLM) o per l'intelligenza artificiale venga rilasciato al pubblico consente alle aziende di individuare i problemi e dare priorità agli investimenti nella difesa.
Il red teaming per intelligenza artificiale si basa sugli errori di utenti malintenzionati e innocui
A differenza del red teaming di sicurezza tradizionale, che si concentra principalmente su avversari dannosi, il red teaming di intelligenza artificiale considera un set più ampio di utenti e errori. I red team di intelligenza artificiale hanno imparato importanti lezioni dai test avversari sui prodotti di ricerca e assistente basati sull'intelligenza artificiale. Quando viene messo alla prova un motore di ricerca basato sull'IA, il red teaming per intelligenza artificiale si concentra sulle modalità con cui un malintenzionato può compromettere il sistema di IA attraverso tecniche mirate alla sicurezza. Esamina inoltre come il sistema può generare contenuti problematici e dannosi quando gli utenti normali interagiscono con esso. Questo è importante perché un prodotto di intelligenza artificiale di punta che genera contenuti problematici può causare danni significativi alla reputazione per l'organizzazione.
Sistemi di intelligenza artificiale generativa che utilizzano il red teaming richiedono diversi tentativi dello stesso test.
In un accordo di red teaming tradizionale, usando uno strumento o una tecnica in due punti temporali diversi sullo stesso input, produrrebbe sempre lo stesso output. Questa operazione è nota come output deterministico. I sistemi di IA generativa sono probabilistici, il che significa che l'esecuzione dello stesso input due volte può fornire output diversi.
La natura probabilistica dell'IA generativa consente una gamma più ampia di output creativi. Questo rende il red teaming un'attività complessa, poiché l'utilizzo dello stesso prompt di testo può determinare il successo in un tentativo e l'insuccesso in un altro. Un metodo per risolvere questo problema è quello di eseguire più iterazioni di red teaming nella stessa operazione. A tale scopo, le organizzazioni investono nell'automazione che consente di ridimensionare le operazioni. Sviluppano anche strategie di misurazione sistematiche che quantificano l'entità del rischio.
I sistemi di intelligenza artificiale si evolvono costantemente
Man mano che vengono rilasciati nuovi modelli, le applicazioni di intelligenza artificiale che li utilizzano vengono regolarmente aggiornate. Ad esempio, gli sviluppatori possono aggiornare il metaprompt di un'applicazione abilitata per l'intelligenza artificiale o LLM (noto anche come messaggio di sistema). I metaprompt forniscono le istruzioni sottostanti al modello linguistico sottostante. La modifica del metaprompt comporta modifiche nel modo in cui il modello risponde, comportando esercizi di red team che devono essere eseguiti di nuovo. Poiché le risposte provenienti da LLM sono probabilistiche anziché deterministiche, i risultati delle modifiche non possono essere previsti e possono essere realmente compresi solo attraverso i test. I Team red di intelligenza artificiale devono eseguire misurazioni e test sistematici e automatizzati e monitorare i sistemi abilitati per l'intelligenza artificiale nel tempo.
La mitigazione degli errori di intelligenza artificiale richiede una difesa approfondita
Il red teaming per intelligenza artificiale richiede un approccio di difesa avanzata. La difesa avanzata richiede l'applicazione di più controlli di sicurezza, ognuno dei quali attenua una strategia antagonista diversa. Con le applicazioni con abilitazione dell'intelligenza artificiale che possono prevedere l'utilizzo di classificatori per segnalare contenuti potenzialmente dannosi o l'utilizzo di metaprompt. Implementando classificatori, è possibile guidare il comportamento o le applicazioni abilitate per l'intelligenza artificiale e limitare la deriva delle conversazioni in scenari interattivi.