Planen von KI Red Teaming
Der Red Teaming-Prozess ist eine bewährte Methode bei der verantwortungsvollen Entwicklung von Anwendungen und Systemen, die Large Language Models (LLMs) verwenden. Red Teaming ergänzt die systematische Mess- und Risikominderungsarbeit von Entwicklern und hilft, Schäden aufzudecken und zu identifizieren. Rote Teams helfen auch dabei, Messstrategien zu ermöglichen, um die Wirksamkeit von Risikoentschärfungsmaßnahmen zu überprüfen.
Berücksichtigen Sie bei der Planung Ihres Ansatzes für red teaming LLMs und KI-fähige Anwendungen die folgenden Ziele:
- Stellen Sie sicher, dass die richtigen Softwaresicherheitsprotokolle für die Anwendung befolgt werden – AI befreit Sie nicht von herkömmlichen Sicherheitspraktiken.
- Testen Sie das LLM-Basismodell, und ermitteln Sie, ob es Lücken in vorhandenen Sicherheitssystemen gibt, im Rahmen Ihrer Anwendung
- Feedback zu den durch Tests aufgedeckten Fehlern geben, um Verbesserungen voranzutreiben.
Der KI-Red-Teaming-Prozess hat vier Phasen: das Team zu rekrutieren, gegnerische Tests zu entwerfen, Tests durchzuführen und Ergebnisse zu berichten.
Rekrutieren des roten Teams
Der Erfolg des KI-Red-Teaming hängt von den Personen ab, die Sie rekrutieren. Wenn Sie rote Teammitglieder auswählen, befolgen Sie die folgenden Prinzipien:
- Wählen Sie für vielfältige Erfahrungen und Expertise aus: Suchen Sie rote Teammitglieder mit unterschiedlichen Hintergründen, Fachgebieten und Anwendungsfällen für das Zielsystem. Wenn Sie beispielsweise einen Chatbot im Gesundheitswesen probiert haben, hat eine Pflegekraft einen anderen Ansatz als ein Systemadministrator, der die Infrastruktur des Chatbots verwaltet.
- Schließen Sie sowohl gegnerische als auch gutartige Denkweisen ein: Im Gegensatz zu herkömmlichen roten Teams, die nur mit Sicherheitsexperten besetzt sind, sollten KI-rote Teams auch normale Benutzer enthalten. Normale Benutzer können schädliche Verhaltensweisen durch natürliche Interaktionsmuster entdecken, die Sicherheitsexperten möglicherweise nicht testen. Beispielsweise könnte eine Pflegekraft einen Chatbot davon überzeugen, vertrauliche Patientendaten auf eine Weise offenzulegen, die einem Sicherheitsexperten nicht einfallen würde.
- Zuweisen von Teammitgliedern zu bestimmten Schwachstellen und Funktionen: Weisen Sie Mitglieder mit spezifischem Fachwissen zu, um bestimmte Arten von Schwachstellen zu untersuchen, z. B. Sicherheitsexperten, um auf Jailbreaks und Metapromptextraktion zu prüfen. Ziehen Sie bei mehreren Runden das Rotieren der Aufgaben in Betracht, um frische Perspektiven zu gewinnen und gleichzeitig Zeit für die Anpassung zu lassen.
- Stellen Sie klare Ziele bereit: Geben Sie jedem Teammitglied klare Anweisungen für das Ziel, die zu testende Produktfeatures, die Arten von Problemen, die untersucht werden sollen, zeiterwartungen und wie Ergebnisse erfasst werden.
Stellen Sie eine konsistente Möglichkeit zum Aufzeichnen von Ergebnissen bereit, einschließlich Datum, eindeutiger Bezeichner für Reproduzierbarkeit, Eingabeaufforderung und beschreibung oder Screenshot der Ausgabe.
Entwerfen gegnerischer Tests
Da eine Anwendung mit einem Basismodell erstellt wird, testen Sie auf beiden Ebenen:
- Das LLM-Basismodell wird mit seinem Sicherheitssystem in der Regel über einen API-Endpunkt verwendet, um Lücken zu identifizieren, die im Kontext Ihrer Anwendung adressiert werden müssen.
- Die KI-fähige Anwendung über die Benutzeroberfläche, um das vollständige System zu testen, einschließlich Sicherheitsmechanismen auf Anwendungsebene
Red Team Mitglieder sollten beide Ebenen vor und nach der Implementierung von Minderungsmaßnahmen testen.
Durchführen von Tests
Testen Sie zunächst das Basismodell, um die Risikooberfläche zu verstehen und die Entwicklung von Risikominderungen zu leiten. Testen Sie iterativ mit und ohne Gegenmaßnahmen, um ihre Wirksamkeit zu bewerten. Verwenden Sie sowohl manuelles Red Teaming als auch systematische Messungen und testen Sie die Benutzeroberfläche in der Produktion, um eine realistische Nutzung so weit wie möglich zu replizieren.
Strukturieren Sie Ihre Tests um diese Aktivitäten:
Bestimmen des Schadensumfangs
Beginnen Sie mit Organisationsrichtlinien für Vertrauen und Sicherheit oder verantwortungsvolle KI sowie mit Compliance-Vorschriften. Arbeiten Sie mit Ihren Rechts- und Richtlinienteams zusammen, um die wichtigsten Schäden für diese Anwendung zu identifizieren. Das Ergebnis ist eine priorisierte Liste von Schäden mit Beispielen.
Kreative rote Teamer finden oft Schäden, die nicht von Organisationsrichtlinien vorhergesagt wurden. Mehrere Organisationen haben Reputationsschäden erlitten, wenn die Öffentlichkeit problematische KI-Ergebnisse entdeckt hat, die nicht getestet wurden. Ein kreatives Red Team hat eher die Möglichkeit, solche Probleme vor der Veröffentlichung zu entdecken.
Erweitern der Liste durch offene Tests
Ergänzen Sie die richtliniengesteuerte Liste mit Schäden, die durch kreative Erkundung gefunden werden. Priorisieren Sie Schäden für iterative Tests basierend auf Schweregrad und dem Kontext, in dem sie wahrscheinlich auftreten. Fügen Sie jeden neu ermittelten Schaden der Hauptliste für zukünftige Testrunden hinzu.
Erneutes Testen nach dem Anwenden von Risikominderungen
Testen Sie die vollständige Liste der bekannten Schäden mit Mitigationsmaßnahmen. Möglicherweise entdecken Sie neue Schäden oder stellen fest, dass vorhandene Entschärfungen unzureichend sind. Aktualisieren Sie die Schadensliste, und sind Sie offen für die Verschiebung von Prioritäten auf der Grundlage der Ergebnisse.
Automatisieren im großen Maßstab
Manuelles Red Teaming ist unerlässlich, aber schwer zu skalieren. Ergänzen Sie es mit automatisierten Red-Teaming-Tools – Frameworks, die die adversariale Überprüfung von KI-Modellen und -Anwendungen automatisieren. Beispielsweise bietet das Open-Source-Python Risk Identification Tool (PyRIT) Folgendes:
- Automatisierte Scans: Simuliert gegnerisches Probing mit kuratierten Seed-Eingabeaufforderungen pro Risikokategorie und Angriffsstrategien, die Sicherheitsvorkehrungen umgehen
- Bewertung: Generiert eine Angriffserfolgsrate (ASR) – den Prozentsatz der erfolgreichen Angriffe – um Ihnen eine quantifizierbare Risikolage zu bieten
- Berichterstellung: Erstellt Scorecards von Angriffstechniken und Risikokategorien, die im Laufe der Zeit für Compliance und kontinuierliche Überwachung nachverfolgt werden.
Speziell für KI-Agents können automatisierte Tools Risikokategorien testen, die nur schwer durch manuelle Aufforderungstests zu erreichen sind, einschließlich verbotener Aktionen, vertraulicher Datenlecks durch Toolaufrufe und Aufgabeneinhaltung.
Führen Sie automatisierte Tools in einer Nichtproduktionsumgebung aus, die mit produktionsähnlichen Ressourcen konfiguriert ist. Nutzen Sie sie als Ergänzung zu manuellen Tests – Automatisierung deckt Risiken in großem Maßstab auf, während menschliche Experten eine tiefere Analyse durchführen.
Berichterstattung der Ergebnisse
Seien Sie strategisch bei der Datensammlung, um zu vermeiden, dass Red-Teamer beim Erfassen kritischer Informationen überwältigt werden. Bei Kleineren Übungen funktioniert ein geteiltes Tabellenblatt gut. Für systematische Tests im großen Maßstab bieten automatisierte Tools strukturierte Ergebnissammlung und Metriken.
Freigeben regulärer Berichte für wichtige Projektbeteiligte, die Folgendes umfassen:
- Die wichtigsten identifizierten Probleme
- Eine Verknüpfung mit den Rohdaten
- Der Testplan für bevorstehende Runden
- Anerkennung von Red Team-Mitgliedern
Klären Sie, dass Red Teaming die Risikooberfläche sichtbar macht und das Verständnis dafür erhöht – es ist kein Ersatz für systematische Messungen und rigorose Minderungsmaßnahmen. Leser sollten bestimmte Beispiele nicht als Metrik für die Verbreitung dieses Schadens interpretieren.