Planera AI red team-verksamhet

7 minuter

Den röda teamindelningsprocessen är en bra metod för ansvarsfull utveckling av program och system som använder stora språkmodeller (LLM). Red Teaming kompletterar utvecklarnas systematiska mätnings- och åtgärdsarbete och hjälper till att upptäcka och identifiera skador. Röda team hjälper också till att införa mätstrategier för att verifiera effektiviteten av åtgärder.

När du planerar din metod för red teaming av LLM:er och AI-drivna applikationer bör du överväga följande mål:

Se till att rätt programvarusäkerhetsprotokoll följs för programmet – AI undantar dig inte från traditionella säkerhetsrutiner
Testa LLM-basmodellen och avgöra om det finns luckor i befintliga säkerhetssystem, med tanke på programmets kontext
Ge feedback om fel som testningen upptäcker för att förbättra

Den röda AI-teamindelningsprocessen har fyra faser: rekrytera teamet, utforma kontradiktoriska tester, utföra tester och rapportera resultat.

Rekrytera det röda teamet

Framgången med AI red team-arbete beror på vilka personer du rekryterar. När du väljer röda gruppmedlemmar följer du dessa principer:

Välj för olika erfarenheter och expertis: Sök röda teammedlemmar med olika bakgrund, expertområden och användningsfall för målsystemet. Om du till exempel avsöker en chattrobot för hälso- och sjukvård har en sjuksköterska en annan metod än en systemadministratör som hanterar chattrobotens infrastruktur.
Inkludera både kontradiktoriska och godartade tankesätt: Till skillnad från traditionella röda team som endast är bemannade med säkerhetspersonal bör ai-röda team också inkludera vanliga användare. Vanliga användare kan identifiera skadliga beteenden genom naturliga interaktionsmönster som säkerhetspersonal kanske inte tror att testa. En sjuksköterska kan till exempel övertyga en chattrobot att släppa konfidentiella patientdata på ett sätt som inte skulle inträffa för en säkerhetspersonal.
Tilldela gruppmedlemmar till specifika risker och funktioner: Tilldela medlemmar med specifik expertis för att undersöka specifika typer av risker eller hot– till exempel säkerhetsexperter som undersöker jailbreaks och metapromptextrahering. För flera rundor bör du överväga att rotera tilldelningar för att få nya perspektiv samtidigt som du ger tid för justering.
Ange tydliga mål: Ge varje teammedlem tydliga instruktioner som täcker målet, produktfunktionerna som ska testas, vilka typer av problem som ska undersökas, tidsförväntningar och hur du registrerar resultat.

Ange ett konsekvent sätt att registrera resultat, inklusive datum, en unik identifierare för reproducerbarhet, indataprompten och en beskrivning eller skärmbild av utdata.

Utforma kontradiktoriska tester

Eftersom ett program skapas med en basmodell testar du i båda lagren:

LLM-basmodellen med säkerhetssystemet på plats, vanligtvis via en API-slutpunkt, för att identifiera luckor som behöver åtgärdas i samband med ditt program
Det AI-aktiverade programmet via användargränssnittet för att testa hela systemet, inklusive säkerhetsmekanismer på programnivå

Red teamare bör testa båda lagren både före och efter att åtgärder har införts.

Utföra tester

Börja med att testa basmodellen för att förstå riskytan och vägleda minskningsutvecklingen. Testa iterativt med och utan begränsningsåtgärder för att bedöma deras effektivitet. Använd både manuell röd teamindelning och systematiska mätningar och testa produktionsgränssnittet så mycket som möjligt för att replikera verklig användning.

Strukturera dina tester kring dessa aktiviteter:

Fastställa omfattningen av skada

Börja med organisationens principer för förtroende och säkerhet eller ansvarsfull AI, tillsammans med efterlevnadsregler. Samarbeta med dina juridiska avdelningar och policyavdelningar för att identifiera de viktigaste negativa effekterna för den här applikationen. Resultatet är en prioriterad lista över skador med exempel.

Kreativa röda teamtagare hittar ofta skador som inte förutsagts av organisationens principer. Flera organisationer har lidit ryktesskada när allmänheten upptäckte problematiska AI-resultat som inte testades för. Det är mer troligt att ett kreativt rött team upptäcker dessa problem innan de släpps.

Utöka listan med öppen testning

Komplettera den policydrivna listan med skador som hittas genom kreativ utforskning. Prioritera skador för iterativ testning baserat på allvarlighetsgrad och kontexten där de sannolikt kommer att dyka upp. Lägg till varje nyupptäckt skada i huvudlistan för framtida testrundor.

Testa igen när du har tillämpat riskminskningsåtgärder

Testa den fullständiga listan över kända risker med åtgärder som finns på plats. Du kan upptäcka nya skador eller upptäcka att befintliga åtgärder inte är tillräckliga. Uppdatera skadelistan och var öppen för skiftande prioriteringar baserat på resultaten.

Automatisera i stor skala

Manuell röd teamindelning är viktigt men svårt att skala. Komplettera med automatiserade verktyg för röd teamindelning – ramverk som automatiserar genomsökning av AI-modeller och program. Till exempel tillhandahåller det open-sourceverktyg Python Risk Identification Tool (PyRIT):

Automatiserade genomsökningar: Simulerar kontradiktorisk avsökning med hjälp av utvalda seed-prompter per riskkategori, med attackstrategier som kringgår säkerhetsjusteringar
Bedömning: Genererar en attackframgångsfrekvens (ASR) – procentandelen lyckade attacker – vilket ger dig en kvantifierbar riskstatus
Rapportering: Producerar indexkort med attacktekniker och riskkategorier, vilka spåras över tid för att säkerställa efterlevnad och fortlöpande övervakning

För AI-agenter specifikt kan automatiserade verktyg testa riskkategorier som är svåra att nå enbart genom manuell prompttestning, inklusive förbjudna åtgärder, läckage av känsliga data via verktygsanrop och uppgiftsefterlevnad.

Kör automatiserade verktyg i en icke-produktionsmiljö som konfigurerats med produktionsliknande resurser. Använd dem som ett komplement till manuell testning – automatiseringen ytbehandlar risker i stor skala, medan mänskliga experter ger djupare analys.

Rapportresultat

Var strategisk med datainsamling för att undvika överväldigande red teamers samtidigt som du samlar in viktig information. För mindre övningar fungerar ett delat kalkylblad bra. För systematisk testning i stor skala tillhandahåller automatiserade verktyg strukturerad resultatinsamling och mått.

Dela regelbundna rapporter med viktiga intressenter som omfattar:

De mest identifierade problemen
En länk till rådata
Testplanen för kommande omgångar
Erkännande av red teamers

Förtydliga att röd teamindelning exponerar och ökar förståelsen för riskytan – det är inte en ersättning för systematiska mätningar och rigorösa åtgärder. Läsare bör inte tolka specifika exempel som ett mått för den skadans genomslagskraft.

Feedback

Var den här sidan till hjälp?