Riepilogo
In questo modulo sono stati illustrati i concetti fondamentali della sicurezza dell'intelligenza artificiale. È stato esaminato il modo in cui la sicurezza dell'intelligenza artificiale è diversa dalla sicurezza informatica tradizionale, in particolare a causa della natura non deterministica dell'IA generativa e della superficie di attacco espansa creata dalle interfacce del linguaggio naturale. Si è anche appreso il significato dei framework di IA responsabile e standard del settore come OWASP Top 10 for LLM Applications e MITRE ATLAS.
Sono stati esaminati i tre livelli dell'architettura di intelligenza artificiale, ovvero l'utilizzo, l'applicazione e la piattaforma, e i diversi problemi di sicurezza a ogni livello. Sono state quindi esaminate cinque categorie di attacchi specifici dell'intelligenza artificiale:
- Jailbreaking: tecniche che ignorano i guardrail di sicurezza, tra cui iniezione diretta, attacchi crescendo e trucchi di codifica
- Prompt injection: attacchi XPIA diretti e indiretti che modificano il comportamento del modello tramite istruzioni dannose
- Manipolazione del modello: attacchi di avvelenamento da modelli e avvelenamento dei dati che compromettono il modello durante il training
- Esfiltrazione di dati: estrazione non autorizzata di modelli, dati di training o dati di interazione
- Overreliance: il rischio comportamentale umano di accettare l'output di intelligenza artificiale senza verifica
Per ogni tipo di attacco sono state illustrate le strategie di mitigazione a più livelli che combinano controlli tecnici, monitoraggio e supervisione umana. La sicurezza dell'intelligenza artificiale è un campo in rapida evoluzione: le nuove tecniche di attacco e le contromisure continuano a emergere. Rimanere aggiornati con framework come OWASP, MITRE ATLAS e NIST AI RMF è essenziale per mantenere controlli di sicurezza efficaci.
Altre risorse
Per continuare il percorso di apprendimento, passare a: