Concetti di base della sicurezza per l'intelligenza artificiale

Completato

La sicurezza dell'intelligenza artificiale è la pratica di proteggere i sistemi di intelligenza artificiale, inclusi modelli, dati di training, pipeline di inferenza e applicazioni abilitate per l'intelligenza artificiale, da minacce che sfruttano le caratteristiche univoche dell'intelligenza artificiale. Anche se la sicurezza informatica tradizionale è incentrata sulla protezione di sistemi informatici, reti e dati, la sicurezza dell'intelligenza artificiale estende questi obiettivi per affrontare i rischi specifici del modo in cui i sistemi di intelligenza artificiale imparano, ragionno e generano output. I professionisti della sicurezza che lavorano nello spazio di sicurezza di intelligenza artificiale devono progettare e implementare controlli che proteggono asset, dati e informazioni all'interno delle applicazioni abilitate per l'intelligenza artificiale.

In che modo la sicurezza dell'IA è diversa dalla cybersecurity tradizionale?

La sicurezza dell'intelligenza artificiale è diversa dalla sicurezza informatica tradizionale a causa del modo in cui i sistemi di intelligenza artificiale imparano e producono output. L'output dei modelli di intelligenza artificiale generativa non è sempre lo stesso, anche se viene fornito lo stesso input. Questo comportamento non deterministico pone problemi quando si progettano controlli di sicurezza, perché i controlli tradizionali spesso presuppongono che lo stesso input produchi lo stesso output ogni volta.

Le interfacce del linguaggio naturale che rendono utile l'intelligenza artificiale generativa espandono anche la superficie di attacco. Vincolare l'input a un elemento o un'API dell'interfaccia utente è un controllo di sicurezza ben compreso per le applicazioni tradizionali, ma non è possibile limitare un'interfaccia del linguaggio naturale nello stesso modo senza compromettere il valore principale del sistema di intelligenza artificiale.

Altre considerazioni specifiche per la sicurezza dell'intelligenza artificiale includono, ma non sono limitate a:

  • Integrità del modello di intelligenza artificiale
  • Integrità dei dati di training
  • Problemi di intelligenza artificiale responsabile (RAI)
  • Attacchi di intelligenza artificiale avversaria
  • Furto di modelli di intelligenza artificiale
  • Dipendenza eccessiva dall'IA
  • Natura non deterministica (creativa) dell'IA generativa

Una delle principali sfide della sicurezza dell'IA è che il campo sta sviluppando rapidamente. Nuove funzionalità del modello, nuovi modelli di integrazione (ad esempio gli agenti di intelligenza artificiale con accesso agli strumenti) e nuove tecniche di attacco emergono regolarmente. Questo ritmo rende difficile per i professionisti della sicurezza mantenere aggiornati l'ambito e le funzionalità della tecnologia e avere i controlli di sicurezza corretti.

Perché l'IA responsabile è importante per la cybersecurity?

L'intelligenza artificiale responsabile (IA responsabile) è un approccio allo sviluppo, alla valutazione e alla distribuzione di sistemi di intelligenza artificiale in modo sicuro, affidabile ed etico. I sistemi di intelligenza artificiale sono il prodotto di molte decisioni prese da coloro che li sviluppano e li distribuiscono. Dallo scopo del sistema al modo in cui le persone interagiscono con i sistemi di intelligenza artificiale, l'intelligenza artificiale responsabile può aiutare a guidare in modo proattivo queste decisioni verso risultati più vantaggiosi ed equi. Ciò significa mantenere le persone e i loro obiettivi al centro delle decisioni di progettazione del sistema e rispettare valori durevoli come equità, affidabilità e trasparenza.

I principali framework di IA responsabili condividono un set comune di principi per la creazione di sistemi di IA: equità, affidabilità e sicurezza, privacy e sicurezza, inclusività, trasparenza e responsabilità. Questi principi sono la pietra angolare di un approccio responsabile e affidabile all'IA.

Diagramma esagonale dei sei principi di IA responsabili che circondano un'etichetta di IA centrale.

I danni all'IA sono problemi specifici dei sistemi di IA che possono estendersi sulla cybersecurity, la privacy e l'etica. L'intelligenza artificiale offusca le linee tra questi domini tradizionalmente separati. È importante che i professionisti della sicurezza comprendano l'IA responsabile in modo olistico per creare sistemi di IA sicuri e responsabili.

Esempi di danni causati dall'intelligenza artificiale specifici per la sicurezza:

  • Violazioni della privacy tramite accesso o inferenza di dati non autorizzati
  • Eccessiva dipendenza dall'IA per decisioni critiche

Esempi di altri danni causati dall'intelligenza artificiale:

  • Produzione di contenuto che viola i criteri (ad esempio, contenuto dannoso, offensivo o violento)
  • Fornire l'accesso a funzionalità pericolose del modello (ad esempio, producendo istruzioni utilizzabili per l'attività criminale)
  • Subversione dei sistemi decisionali (ad esempio, alterare un sistema di richiesta di prestiti o di assunzione per produrre decisioni controllate dagli attaccanti)
  • Indurre il sistema a generare risultati dannosi e degni di nota che compromettono la reputazione aziendale
  • Violazione dell'IP

Framework di sicurezza dell'intelligenza artificiale e tassonomie di minaccia

I professionisti della sicurezza usano framework standard del settore per classificare e comunicare i rischi per la sicurezza dell'IA. I framework ampiamente adottati includono:

  • OWASP Top 10 for LLM Applications: The Open Worldwide Application Security Project (OWASP) mantiene un elenco classificato dei rischi di sicurezza più critici specifici delle applicazioni del modello linguistico di grandi dimensioni. Le categorie includono l'inserimento di comandi, la gestione insicura dell'output, l'avvelenamento dei dati di addestramento e il furto di modelli, gli stessi tipi di attacco trattati in questo modulo. I principali benchmark di sicurezza del cloud ora indirizzano in modo esplicito i team di sicurezza a usare questo framework durante la formazione sulle minacce specifiche dell'intelligenza artificiale.
  • MITRE ATLAS (Panorama delle minacce antagoniste per i sistemi Artificial-Intelligence): una knowledge base di tattiche e tecniche antagoniste osservate nei sistemi di IA, strutturata in modo analogo al framework MITRE ATT&CK che i professionisti della sicurezza usano già per i sistemi tradizionali. MITRE ATLAS fornisce gli ID di attacco e le descrizioni delle tecniche a cui fanno riferimento i team rossi di intelligenza artificiale durante la progettazione di scenari di test.
  • NIST AI Risk Management Framework (AI RMF): pubblicato dal National Institute of Standards and Technology, questo framework fornisce indicazioni per la gestione dei rischi nel ciclo di vita dell'IA. Sottolinea la governance, la trasparenza e il monitoraggio continui.
  • ISO/IEC 42001: standard internazionale per i sistemi di gestione dell'IA che fornisce requisiti per stabilire, implementare e migliorare la governance dell'IA, inclusi i controlli di sicurezza.

Questi framework si integrano tra loro. I team di sicurezza li usano spesso insieme, ad esempio OWASP per assegnare priorità ai rischi delle applicazioni, MITRE ATLAS per modellare il comportamento antagonista e NIST AI RMF o ISO 42001 per la governance organizzativa.

Le tecniche di attacco che apprenderai nelle unità successive, tra cui jailbreaking, inserimento di richieste, manipolazione dei modelli ed esfiltrazione dei dati, corrispondono tutte a voci presenti sia in OWASP sia in ATLAS. Man mano che si creano le conoscenze sulla sicurezza dell'intelligenza artificiale, l'uso di queste tassonomie consente di comunicare i rischi in termini di riconoscimento dei colleghi e dei team di conformità. È possibile trovare collegamenti a ognuno di questi framework nella sezione delle risorse dell'unità di riepilogo di questo modulo.