Manipolazione del modello di intelligenza artificiale

Completato

La manipolazione del modello è una categoria di attacchi destinati all'integrità di un modello di intelligenza artificiale o ai dati usati per eseguirne il training. A differenza degli attacchi basati su prompt che sfruttano il modello in fase di inferenza (durante l'elaborazione delle richieste), gli attacchi di manipolazione del modello compromettono il modello durante il training o l'ottimizzazione fine, prima della distribuzione. Ciò li rende particolarmente pericolosi perché il comportamento danneggiato diventa parte delle funzionalità apprese del modello.

La manipolazione del modello viene catalogata come tecnica AML.T0022 (avvelenamento dei dati) in MITRE ATLAS e viene elencata nella Top 10 di OWASP per le applicazioni LLM come "Avvelenamento dei dati di training".

I due tipi di vulnerabilità principali di questa categoria sono l'avvelenamento del modello e l'avvelenamento dei dati.

Diagramma degli attacchi di manipolazione del modello: avvelenamento da dati e avvelenamento da modelli che portano a un modello compromesso.

Avvelenamento del modello

L'avvelenamento da modelli è la possibilità di danneggiare un modello sottoposto a training manomettendo l'architettura del modello, il codice di training o gli iperparametri. Invece di modificare i dati di training, l'attaccante prende di mira direttamente la struttura o il processo di allenamento del modello. Tra gli esempi di tecniche di attacco di avvelenamento del modello sono inclusi i seguenti:

  • Attacchi di disponibilità: Questi attacchi mirano all'iniezione di molti dati non corretti o rumore nel processo di addestramento, rendendo il limite decisionale appreso del modello inaffidabile. Ciò può causare un calo significativo dell'accuratezza, rendendo il modello inutilizzabile.

  • Attacchi di integrità (backdoor): questi sofisticati attacchi lasciano il modello funzionare normalmente nella maggior parte degli input, ma introducono una backdoor nascosta. Questa backdoor consente all'utente malintenzionato di modificare il comportamento del modello per input specifici, ad esempio causando un modello di moderazione del contenuto per approvare sempre il contenuto che contiene una frase trigger nascosta specifica.

  • Livelli di accesso antagonisti: l'efficacia degli attacchi di avvelenamento dipende dal livello di accesso dell'avversario al modello, che va dall'accesso completo alla pipeline di training (più pericolosa) all'accesso limitato solo tramite interazioni API. Gli attaccanti possono utilizzare strategie come incrementare gli aggiornamenti dannosi del modello o utilizzare tecniche di ottimizzazione alternate per mantenere la furtività.

Avvelenamento dei dati

L'avvelenamento dei dati è simile all'avvelenamento da modelli, ma comporta la modifica dei dati su cui viene eseguito il training o il test del modello prima che venga eseguito il training. Ciò si verifica quando un antagonista inserisce intenzionalmente dati dannosi in un set di dati di training del modello di Intelligenza artificiale o Machine Learning (ML). L'obiettivo è quello di manipolare il comportamento del modello durante i processi decisionali.

Quattro tipi comuni di attacchi di avvelenamento dei dati includono:

Avvelenamento della backdoor

In questo attacco, un antagonista immette dati nel set di training con l'intenzione di creare una vulnerabilità nascosta o una "backdoor" nel modello. Il modello apprende di associare un trigger specifico a un risultato specifico, che può essere sfruttato in un secondo momento.

Si immagini, ad esempio, un filtro di posta indesiderata sottoposto a training in base ai dati di posta elettronica. Se un utente malintenzionato introduce erroneamente una frase specifica in messaggi di posta elettronica legittimi durante il training, il filtro potrebbe imparare a classificare i messaggi di posta indesiderata futuri contenenti tale frase come legittima.

Attacchi alla disponibilità

Gli attacchi di disponibilità puntano a compromettere la funzionalità di un sistema contaminando i dati durante l'addestramento. Ad esempio:

  • I dati di training di un veicolo autonomo includono immagini di segnali stradali. Un utente malintenzionato potrebbe inserire immagini di segnali stradali fuorvianti o alterate, inducendo il veicolo a interpretare erroneamente i segnali reali durante il funzionamento.
  • I chatbot addestrati nelle interazioni con i clienti potrebbero imparare un linguaggio inappropriato se vengono introdotti dati contaminati contenenti termini offensivi.

Attacchi di inversione del modello

Gli attacchi di inversione del modello sfruttano l'output del modello per dedurre informazioni riservate sui dati di training. Ad esempio, un modello di riconoscimento facciale viene sottoposto a training su un set di dati contenente sia figure pubbliche che individui privati. Un utente malintenzionato potrebbe usare gli output del modello per ricostruire i volti degli individui privati, con conseguente violazione della privacy.

Attacchi furtivi

Le tecniche di avvelenamento subdolo mirano a eludere il rilevamento durante la formazione. Gli attaccanti modificano leggermente una piccola frazione dei dati di training per evitare di attivare allarmi. Ad esempio, l'alterazione di alcuni pixel nelle immagini di cifre scritte a mano durante l'addestramento potrebbe portare un modello di riconoscimento delle cifre a classificare in modo errato cifre specifiche senza che nessuno noti la modifica nei dati di addestramento.

Mitigazione della manipolazione dei modelli

Gli attacchi di manipolazione del modello possono essere mitigati tramite diversi controlli di sicurezza:

  • Proteggere l'integrità del modello: limitare l'accesso alla pipeline di training, all'architettura e alla configurazione del modello usando i controlli di identità, rete e sicurezza dei dati. Assicurarsi che solo il personale autorizzato possa modificare il codice di training o gli iperparametri.
  • Proteggere i dati di training: limitare l'accesso ai set di dati di training usando i controlli di accesso e la governance dei dati. Convalidare la provenienza dei dati e implementare controlli di integrità per rilevare modifiche non autorizzate.
  • Convalidare il comportamento del modello: testare i modelli rispetto ai benchmark noti prima e dopo il training per rilevare modifiche comportamentali impreviste che potrebbero indicare l'avvelenamento.
  • Monitorare gli output del modello: distribuire filtri di contenuto in uscita per rilevare i segni di attacchi di inversione del modello o altre perdite di dati tramite risposte del modello.
  • Use ML-BOM (Machine Learning Bill of Materials): tenere traccia dell'origine e delle trasformazioni dei dati e dei modelli in tutta la pipeline per mantenere un audit trail.