Was ist KI Red Teaming?

Abgeschlossen

Red Teaming ist ein Begriff aus der Informationssicherheitsbranche, der verwendet wird, um den Prozess des Testens von Sicherheitsrisiken mithilfe systematischer gegnerischer Angriffe zu beschreiben. Red Teaming wird durchgeführt, um die Sicherheit der Systeme einer Organisation zu härten. Red Teaming unterscheidet sich von unbefugten Angriffen durch böswillige Dritte.

Die Einführung von Large Language Models (LLM) in Anwendungs-Ökosysteme erfordert, dass Red Teams auch adversiale Techniken beim Prüfen, Testen und dem probeweisen Attackieren von KI-Systemen einsetzen. Böswillige und selbst gutartige Nutzungen von KI-gestützten Anwendungen können potenziell schädliche Ergebnisse erzeugen. Zum Beispiel kann der Social-Media-Chatbot eines Unternehmens beschädigt werden, sodass er Hassreden erzeugt oder Gewalt verherrlicht. Die Nutzung durch Angreifer kann auch dazu führen, dass KI-Anwendungen private Daten ausgeben, Angriffe erstellen und andere nachgelagerte negative Sicherheitsauswirkungen erzeugen.

Das folgende Diagramm gibt einen Überblick über die Ausweitung des Geltungsbereichs, die seit der Einführung von LLM in Anwendungsökosystemen mit Red Teaming stattgefunden hat.

Grafik zeigt die Erweiterung des Red Teamings zur Einbeziehung von KI-gestützten Anwendungen.

Das KI-Red Teaming findet auf zwei Ebenen statt: Auf der Basisebene des LLM, z. B. Red Teaming-Angriffe auf ein beliebtes LLM, oder auf Anwendungsebene, wobei eine KI-fähige Anwendung ein LLM als Teil der Backend-Infrastruktur verwendet. Dieser Ansatz mit zwei Ebenen führt zu den folgenden Ergebnissen:

Abbildung, die zwei Ebenen des KI-Red Teaming zeigt: Grundlegendes Testen von LLM und Testen auf Anwendungsebene.

  • Ein Red Teaming für das Modell durchzuführen hilft, früh im Prozess zu identifizieren, wie Modelle missbraucht werden können, den Umfang der Funktionalitäten des Modells festzulegen und die Einschränkungen des Modells zu verstehen. Diese Erkenntnisse können in den Modellentwicklungsprozess eingespeist werden und zukünftige Modellversionen verbessern.
  • Ein Red Teaming auf Anwendungsebene verfolgt einen systemweiten Ansatz, von dem die Basis-LLM ein Teil ist. Wenn Sie z. B. KI-Red Teaming für einen KI-gesteuerten Suchassistenten durchführen, muss das zugrunde liegende LLM-Modell zusammen mit der gesamten Sucherfahrung getestet werden. Wenn Sie einen systemweiten Ansatz verwenden, können Sie Fehler über die Sicherheitsmechanismen auf Modellebene hinaus ermitteln, indem Sie die allgemeinen anwendungsspezifischen Sicherheitstrigger einschließen.

Organisationen mit ausgereiften KI-Praktiken führen dedizierte AI Red Teams aus, die diese adversarialen Tests gegen LLMs, KI-fähige Anwendungen und Dienste durchführen. Diese Teams haben Folgendes gelernt:

  • KI-Red-Teaming ist umfassender als traditionelles Red-Teaming.
  • Beim KI-Red-Teaming wird der Fokus auf Fehler gesetzt, die sowohl von böswilligen als auch von gutwilligen Akteuren verursacht werden
  • Das Red Teaming von generativen KI-Systemen erfordert mehrere Durchgänge des gleichen Tests
  • KI-Systeme entwickeln sich ständig weiter
  • Die Minderung von KI-Fehlern erfordert eine tiefgreifende Verteidigung

KI Red Teaming ist umfangreicher als traditionelles Red Teaming

„KI-Red Teaming“ ist mittlerweile ein Oberbegriff für die Überprüfung sowohl der Sicherheit als auch der verantwortungsvollen Anwendung von KI (Sicherheit). KI-Red-Teaming überschneidet sich mit den Zielen des traditionellen Red Teaming, umfasst jedoch LLMs als Angriffsvektor. KI Red Teaming überprüft Abwehrmaßnahmen gegen neue Arten von Sicherheitsrisiken, einschließlich Prompt-Injection und Model Poisoning. KI-Red-Teaming umfasst auch die Untersuchung von Ergebnissen, die dem Ruf einer Organisation schaden könnten, z. B. in Bezug auf Fairnessprobleme und schädliche Inhalte. Das Durchführen von KI-Red Teaming, bevor eine LLM-gestützte oder KI-gestützte Workload der Öffentlichkeit zugänglich gemacht wird, hilft Unternehmen, Probleme zu identifizieren und die Investitionen in Abwehrmaßnahmen zu priorisieren.

KI Red Teaming konzentriert sich auf Fehler sowohl von böswilligen als auch gutartigen Personen

Im Gegensatz zu herkömmlichen Red Teaming im Bereich Sicherheit, das sich hauptsächlich auf böswillige Gegner konzentriert, berücksichtigt KI Red Teaming eine breitere Gruppe von Personen und Fehlern. KI-Red Teams haben wichtige Lehren aus dem adversialen Testen von KI-gestützten Such- und Assistent-Produkten gezogen und ihr Wissen erweitert. Beim Testen einer KI-fähigen Suchmaschine konzentriert sich das rote KI-Team auf die Art und Weise, wie ein böswilliger Angreifer das KI-System durch sicherheitsorientierte Techniken subvertieren kann. Außerdem wird untersucht, wie das System problematische und schädliche Inhalte generieren kann, wenn normale Benutzer damit interagieren. Dies ist wichtig, da ein KI-Flaggschiffprodukt, das problematische Inhalte erzeugt, erheblichen Reputationsschaden für die Organisation auslösen kann.

Das Red Teaming von generativen KI-Systemen erfordert mehrere Durchgänge des gleichen Tests

Bei einem herkömmlichen Red Teaming-Einsatz würde die Verwendung eines Tools oder einer Technik zu zwei verschiedenen Zeitpunkten beim selben Input immer dieselbe Ausgabe erzeugen. Dies wird als deterministische Ausgabe bezeichnet. Generative KI-Systeme sind probabilistisch, was bedeutet, dass das zweimalige Ausführen derselben Eingabe zu unterschiedlichen Ausgaben führen kann.

Diagramm vergleicht deterministische traditionelle Systeme, die immer die gleiche Ausgabe mit probabilistischen generativen KI-Systemen erzeugen, die unterschiedliche Ausgaben erzeugen. Die probabilistische Natur der generativen KI ermöglicht eine breitere Palette an kreativen Ausgaben. Dies macht Red Teaming herausfordernd, da die Verwendung desselben Testprompts zum Erfolg bei einem Versuch und zu einem Fehler in einem anderen Versuch führen kann. Eine Methode, um dies zu beheben, besteht darin, mehrere Iterationen des Red Teaming im selben Vorgang durchzuführen. Um dies zu erreichen, investieren Organisationen in Automatisierung, die dazu beiträgt, Vorgänge zu skalieren. Sie entwickeln auch systematische Messstrategien, die den Umfang des Risikos quantifizieren.

KI-Systeme entwickeln sich ständig weiter

Wenn neue Modelle veröffentlicht werden, werden die KI-Anwendungen, die sie verwenden, regelmäßig aktualisiert. Entwickler können z. B. den Metaprompt (auch als Systemmeldung bezeichnet) eines LLM oder einer KI-gestützten Anwendung aktualisieren. Metaprompts stellen die zugrunde liegenden Anweisungen für das zugrunde liegende Sprachmodell bereit. Das Ändern des Metaprompts führt zu Änderungen der Reaktion des Modells, was dazu führt, dass Red Team-Übungen erneut durchgeführt werden müssen. Da die Antworten von LLMs probabilistisch und nicht deterministisch sind, können die Ergebnisse von Änderungen nicht vorhergesagt und nur durch Tests wirklich verstanden werden. KI Red Teams müssen systematische, automatisierte Messungen und Tests durchführen und KI-gestützte Systeme im Zeitverlauf überwachen.

Die Minderung von KI-Fehlern erfordert eine tiefgreifende Verteidigung

KI-Red Teaming erfordert einen mehrschichtigen (Defense in Depth) Verteidigungsansatz. Defense in Depth erfordert die Anwendung mehrerer Sicherheitskontrollen, von denen jede eine andere gegnerische Strategie entschärft. Bei KI-gestützten Anwendungen kann dies die Verwendung von Klassifizierer umfassen, um potenziell schädliche Inhalte zu kennzeichnen, bis hin zur Verwendung von Metaprompts. Durch die Implementierung von Klassifizierern ist es möglich, das Verhalten von KI-gestützten Anwendungen zu steuern und die Gesprächsdrift in interaktiven Szenarien zu begrenzen.

Diagramm mit vier ebenen Sicherheitssteuerelementen für KI-Systeme: Eingabeklassifizierer, Metapromptanweisungen, Anwendungssteuerelemente und Modellausrichtung.