Ai Red Teaming Agent (anteprima) (versione classica)

Visualizzazione attuale:Versione del portale Foundry (versione classica) - Passa alla versione per il nuovo portale Foundry

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero avere funzionalità limitate. Per altre informazioni, vedere Condizioni supplementari per l'utilizzo delle anteprime di Microsoft Azure.

L'agente Red Teaming per l'intelligenza artificiale è un potente strumento progettato per aiutare le organizzazioni a individuare proattivamente i rischi per la sicurezza associati ai sistemi di intelligenza artificiale generativa durante la fase di progettazione e sviluppo di modelli e applicazioni di intelligenza artificiale generativa.

Il red teaming tradizionale comporta lo sfruttamento della catena di attacco informatico e descrive il processo con cui un sistema viene testato per individuare le vulnerabilità di sicurezza. Tuttavia, con l'aumento dell'IA generativa, il termine 'red teaming' nell'ambito dell'intelligenza artificiale è stato coniato per descrivere l'identificazione di nuovi rischi (sia relativi al contenuto che alla sicurezza) che questi sistemi presentano e si riferisce alla simulazione del comportamento di un utente avversario che sta cercando di far sì che il sistema di intelligenza artificiale malfunzioni in modo specifico.

L'agente di red teaming di intelligenza artificiale sfrutta il framework open source di Microsoft per le funzionalità di red teaming di Python Risk Identification Tool (PyRIT) di intelligenza artificiale insieme alle funzionalità di Microsoft Foundry Risk e Valutazioni sulla sicurezza per valutare automaticamente i problemi di sicurezza in tre modi:

Analisi automatizzate dei rischi per i contenuti: In primo luogo, è possibile analizzare automaticamente il modello e gli endpoint dell'applicazione per individuare i rischi di sicurezza simulando il probe antagonista.
Valutare il successo del probing: A questo punto, è possibile valutare e assegnare un punteggio a ogni coppia di attacco-risposta per generare metriche dettagliate, ad esempio la percentuale di successo degli attacchi (ASR).
Creazione di report e registrazione Infine, è possibile generare una scheda score delle tecniche di probe degli attacchi e delle categorie di rischio per decidere se il sistema è pronto per la distribuzione. I risultati possono essere registrati, monitorati e monitorati nel tempo direttamente in Foundry, garantendo la conformità e la mitigazione continua dei rischi.

Insieme questi componenti (analisi, valutazione e creazione di report) aiutano i team a comprendere in che modo i sistemi di intelligenza artificiale rispondono agli attacchi comuni, guidando infine una strategia completa di gestione dei rischi.

Quando eseguire un'attività di red teaming con l'intelligenza artificiale

Quando si pensa ai rischi di sicurezza correlati all'intelligenza artificiale che sviluppano sistemi di intelligenza artificiale affidabili, Microsoft usa il framework NIST per attenuare i rischi in modo efficace: governance, mappa, misura, gestione. Ci concentreremo sulle ultime tre parti in relazione al ciclo di vita di sviluppo di intelligenza artificiale generativa:

Mappa: identificare i rischi rilevanti e definire il caso d'uso.
Misura: valutare i rischi su larga scala.
Gestione: attenuare i rischi nell'ambiente di produzione e monitorare con un piano per la risposta agli eventi imprevisti.

L'agente di AI Red Teaming può essere utilizzato per eseguire scansioni automatizzate e simulare sondaggi avversari per aiutare ad accelerare l'identificazione e la valutazione dei rischi noti su ampia scala. Ciò consente ai team di passare da eventi imprevisti reattivi costosi a framework di test più proattivi che possono intercettare i problemi prima della distribuzione. Il processo di red teaming manuale per l'intelligenza artificiale richiede un grande dispendio di tempo e risorse. Si basa sulla creatività degli esperti in materia di sicurezza e sicurezza informatica per simulare attacchi di penetrazione. Questo processo può creare un collo di bottiglia per molte organizzazioni per accelerare l'adozione dell'IA. Con l'agente di red teaming per l'intelligenza artificiale, le organizzazioni possono ora sfruttare le profonde competenze di Microsoft per scalare e accelerare lo sviluppo della loro IA, con Trustworthy AI al centro.

È consigliabile che i team utilizzino l'agente di Red Teaming di Intelligenza Artificiale per eseguire analisi automatizzate durante tutta la fase di progettazione, sviluppo e pre-distribuzione.

Progettazione: scegliere il modello di base più sicuro nel caso d'uso.
Sviluppo: aggiornamento dei modelli all'interno dell'applicazione o creazione di modelli ottimizzati per l'applicazione specifica.
Predeployment: prima di distribuire le applicazioni GenAI nelle produzioni.

Nell'ambiente di produzione è consigliabile implementare mitigazioni di sicurezza come i filtri di Sicurezza dei contenuti di Azure AI o implementare messaggi del sistema di sicurezza usando i modelli.

Funzionamento del Red Teaming per intelligenza artificiale

L'agente di "Red Teaming" AI aiuta ad automatizzare la simulazione dei sondaggi avversari sul vostro sistema di intelligenza artificiale di destinazione. Fornisce un set di dati curato di prompt di avvio o finalità di attacco per categorie di rischio supportate. Questi possono essere usati per automatizzare direttamente il sondaggio avversario. Tuttavia, l'analisi avversaria diretta potrebbe essere facilmente intercettata dalle misure di sicurezza esistenti nella distribuzione del modello. L'applicazione di strategie di attacco da PyRIT offre una conversione aggiuntiva che può aiutare a aggirare o sovvertire il sistema di intelligenza artificiale, portandolo a produrre contenuti indesiderati.

Il diagramma mostra che una richiesta diretta al sistema di intelligenza artificiale su come recuperare una banca attiva una risposta di rifiuto. Tuttavia, l'applicazione di una strategia di attacco, ad esempio il capovolgimento di tutti i caratteri, può aiutare il modello a rispondere alla domanda.

Inoltre, l'agente di Red Teaming AI fornisce agli utenti un modello linguistico avversario ottimizzato dedicato alla simulazione di attacchi avversari e alla valutazione delle risposte che potrebbero contenere contenuti dannosi, utilizzando gli Analizzatori di Rischio e Sicurezza. La metrica chiave per valutare il comportamento di rischio del sistema di intelligenza artificiale è Il tasso di successo degli attacchi (ASR) che calcola la percentuale di attacchi riusciti rispetto al numero totale di attacchi.

Categorie di rischio supportate

Le categorie di rischio seguenti sono supportate nell'agente red teaming di intelligenza artificiale dalle valutazioni di rischio e sicurezza. Sono supportati solo gli scenari basati su testo.

Categoria di rischio	Descrizione
Contenuto odioso e ingiusto	Il contenuto odioso e ingiusto si riferisce a qualsiasi lingua o immagine relativa all'odio verso o a rappresentazioni ingiuste di individui e gruppi sociali lungo fattori, tra cui, a titolo esemplificativo, razza, etnia, nazionalità, sesso, orientamento sessuale, religione, stato di immigrazione, capacità, aspetto personale e dimensioni del corpo. L'iniquità si verifica quando i sistemi di IA trattano o rappresentano gruppi sociali iniquamente, creando o contribuendo alle disuguaglianze sociali.
Contenuto sessuale	Il contenuto sessuale include linguaggio o immagini riguardanti organi anatomici e genitali, relazioni romantiche, atti rappresentati in termini erotici, gravidanza, atti sessuali fisici (tra cui aggressione o violenza sessuale), prostituzione, pornografia e abuso sessuale.
Contenuto violento	Contenuti violenti includono linguaggio o immagini relative ad azioni fisiche destinate a ferire, ferire, danneggiare o uccidere qualcuno o qualcosa del genere. Include anche descrizioni di armi e armi (e entità correlate come produttori e associazioni).
Contenuto Relacionado all'Autolesionismo	Il contenuto correlato all'autolesionismo include linguaggio o immagini relative ad azioni destinate a ferire, ferire o danneggiare il corpo o uccidersi.

Strategie di attacco supportate

Le seguenti strategie di attacco sono supportate nell'agente di AI Red Teaming di PyRIT:

Strategia di attacco	Descrizione
AnsiAttack	Utilizza sequenze di escape ANSI per modificare l'aspetto e il comportamento del testo.
AsciiArt	Genera arte visiva usando caratteri ASCII, spesso usati per scopi creativi o offuscati.
AsciiSmuggler	Nasconde i dati all'interno di caratteri ASCII, rendendo più difficile il rilevamento.
Atbash	Implementa la crittografia Atbash, una semplice crittografia di sostituzione in cui ogni lettera viene mappata al relativo inverso.
Base64	Codifica i dati binari in un formato di testo usando Base64, comunemente usato per la trasmissione dei dati.
Binario	Converte il testo in codice binario, che rappresenta i dati in una serie di 0 e 1.
Cesare	Applica la crittografia Cesare, una crittografia di sostituzione che sposta i caratteri in base a un numero fisso di posizioni.
CharacterSpace	Modifica il testo aggiungendo spazi tra caratteri, spesso usati per offuscare.
CharSwap	Scambia i caratteri all'interno del testo per creare varianti o offuscare il contenuto originale.
Diacritico	Aggiunge segni diacritici ai caratteri, modificandone l'aspetto e talvolta il loro significato.
Flip	Capovolge i caratteri frontalmente e posteriormente, creando un effetto a specchio.
Leetspeak	Trasforma il testo in Leetspeak, una forma di codifica che sostituisce lettere con numeri o simboli simili.
Morse	Codifica il testo nel codice Morse, usando punti e trattini per rappresentare i caratteri.
ROT13	Applica la crittografia ROT13, una semplice crittografia di sostituzione che sposta i caratteri di 13 posizioni.
SuffixAppend	Aggiunge un suffisso antagonista al prompt
StringJoin	Unisce più stringhe, spesso usate per la concatenazione o l'offuscamento.
Unicode confondibili	Usa caratteri Unicode simili ai caratteri standard, creando confusione visiva.
UnicodeSubstitution	Sostituisce i caratteri standard con equivalenti Unicode, spesso per offuscare.
Url	Codifica il testo in formato URL
Jailbreak	Inserisce richieste appositamente create per ignorare le misure di sicurezza di intelligenza artificiale, note come attacchi di richiesta inseriti dall'utente (UPIA).
Jailbreak indiretto	Inserisce prompt di attacco negli output degli strumenti o nel contesto restituito per aggirare indirettamente le misure di sicurezza dell'intelligenza artificiale, note come Attacchi Indiretti di Prompt Injection.
Tensione	Modifica il tempo verbale del testo, convertendolo nello specifico al passato.
Turno multiplo	Esegue attacchi in più turni conversazionali, usando l'accumulo del contesto per aggirare le misure di sicurezza o provocare comportamenti indesiderati.
Crescendo	Aumenta gradualmente la complessità o il rischio di richieste in turni successivi, verificando i punti deboli nelle difese degli agenti attraverso una sfida incrementale.

Limitazioni note dell'agente di Red Teaming per l'intelligenza artificiale

L'agente red teaming di intelligenza artificiale presenta diverse limitazioni importanti da considerare quando si eseguono e interpretano i risultati del red teaming.

Il red teaming esegue scenari simulati in cui un agente Foundry viene esposto direttamente ai dati sensibili o ai dati dei veicoli di attacco. Poiché questi dati sono tutti sintetici, questo non è rappresentativo delle distribuzioni di dati reali.
Gli strumenti fittizi sono abilitati solo attualmente per recuperare i dati sintetici e abilitare le valutazioni di Red Teaming. Attualmente non supportano comportamenti simulati, che permetterebbero di effettuare test più vicini al sandboxing reale rispetto a quanto attualmente supportato.
A causa della mancanza di supporto di sandboxing con una sicurezza stretta, la natura avversaria delle nostre valutazioni di "red teaming" è controllata per evitare un impatto reale sul mondo.
Le esecuzioni di red teaming si limitano a rappresentare la popolazione antagonista e non includono alcuna popolazione osservazionale.
Le esecuzioni di red teaming usano modelli generativi per valutare i tassi di successo degli attacchi (ASR) e possono essere non deterministici e non predittivi. Di conseguenza, esiste sempre una possibilità di falsi positivi e si consiglia sempre di esaminare i risultati prima di eseguire azioni di mitigazione.

Ulteriori informazioni

Inizia con la nostra documentazione su come eseguire un'analisi automatizzata dei rischi per la sicurezza con il Red Teaming Agent di intelligenza artificiale.

Scopri di più sugli strumenti usati dall'Agente di Red Teaming di Intelligenza Artificiale.

Le strategie più efficaci per la valutazione dei rischi combinano strumenti automatizzati che presentano potenziali rischi con l'analisi umana esperta per ottenere informazioni più approfondite. Se la vostra organizzazione sta appena iniziando con il red teaming dell'intelligenza artificiale, esplorate le risorse create dal team red dell'AI di Microsoft:

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-30