KI-Modellmanipulation
Die Modellmanipulation ist eine Kategorie von Angriffen, die auf die Integrität eines KI-Modells selbst oder auf die zum Trainieren verwendeten Daten abzielen. Im Gegensatz zu prompt-basierten Angriffen, die das Modell zur Inferenzzeit (bei der Verarbeitung von Anfragen) ausnutzen, kompromittieren Modellmanipulationsangriffe das Modell während des Trainings oder der Feinabstimmung, bevor es bereitgestellt wird. Dies macht sie besonders gefährlich, da das beschädigte Verhalten Teil der gelernten Funktionen des Modells wird.
Modellmanipulation wird als Technik AML.T0022 (Datenvergiftung) in MITRE ATLAS katalogisiert und erscheint in den OWASP Top 10 für LLM-Anwendungen als "Trainingsdatenmanipulation".
Die beiden wichtigsten Sicherheitslücken in dieser Kategorie sind Model Poisoning und Data Poisoning.
Modelvergiftung
Eine Modellvergiftung ist die Fähigkeit, ein trainiertes Modell durch Manipulation der Modellarchitektur, des Schulungscodes oder hyperparameters zu beschädigen. Anstatt die Schulungsdaten zu ändern, zielt der Angreifer direkt auf die Struktur oder den Schulungsprozess des Modells ab. Beispiele für Techniken zur Vergiftung von Modellen sind:
Verfügbarkeitsangriffe: Diese zielen darauf ab, so viel schlechte Daten oder Geräusche in den Schulungsprozess einzufügen, dass die gelernte Entscheidungsgrenze des Modells unzuverlässig wird. Dies kann zu einem erheblichen Rückgang der Genauigkeit führen, wodurch das Modell unbrauchbar wird.
Integritätsangriffe (Backdoor): Diese komplexen Angriffe lassen das Modell für die meisten Eingaben normal funktionieren, führen aber eine versteckte Hintertür ein. Diese Hintertür ermöglicht es dem Angreifer, das Verhalten des Modells für bestimmte Eingaben zu ändern, z. B. wodurch ein Inhaltsmoderationsmodell immer Inhalte genehmigt, die einen bestimmten ausgeblendeten Auslöserausdruck enthalten.
Angreiferzugriffsebenen: Die Wirksamkeit von Vergiftungsangriffen hängt von der Zugriffsebene ab, die der Angreifer auf das Modell hat, von vollzugriff auf die Schulungspipeline (am gefährlichsten) bis hin zu eingeschränktem Zugriff nur über API-Interaktionen. Angreifer können Strategien wie die Verstärkung bösartiger Modellupdates oder alternierender Optimierungstechniken verwenden, um Stealth aufrechtzuerhalten.
Datenvergiftung
Datenvergiftungen ähneln Modellvergiftungen, umfassen jedoch die Änderung der Daten, auf denen das Modell trainiert oder getestet wird, bevor das Training stattfindet. Dies geschieht, wenn ein Angreifer absichtlich schädliche Daten in das Schulungsdatenset eines KI- oder ML-Modells einschleust. Ziel ist es, das Verhalten des Modells während des Entscheidungsprozesses zu manipulieren.
Vier häufige Arten von Datenvergiftungsangriffen umfassen:
Backdoor Poisoning (Hintertür-Vergiftung)
Bei diesem Angriff injiziert eine Angreiferin oder ein Angreifer Daten in den Trainingssatz mit der Absicht, eine versteckte Sicherheitslücke oder „Hintertür“ in das Modell einzubauen. Das Modell lernt, einen bestimmten Trigger einem bestimmten Ergebnis zuzuordnen, der später ausgenutzt werden kann.
Stellen Sie sich zum Beispiel einen Spam-Filter vor, der auf E-Mail-Daten trainiert wurde. Wenn ein Angreifer während des Trainings einen bestimmten Ausdruck in legitime E-Mails einführt, kann der Filter lernen, zukünftige Spam-E-Mails zu klassifizieren, die diesen Ausdruck als legitim enthalten.
Verfügbarkeitsangriffe
Verfügbarkeitsangriffe zielen darauf ab, die Nützlichkeit eines Systems zu stören, indem sie ihre Daten während der Schulung verunreinigen. Beispiel:
- Die Trainingsdaten eines autonomen Fahrzeugs umfassen Bilder von Straßenschildern. Eine Angreiferin oder ein Angreifer könnte irreführende oder veränderte Bilder von Straßenschildern einspeisen, so dass das Fahrzeug während der Bereitstellung echte Schilder falsch interpretiert.
- Chatbots, die auf Kundeninteraktionen trainiert wurden, können unangemessene Sprache lernen, wenn vergiftete Daten mit anstößigen Ausdrücken eingeführt werden.
Angriff mit Invertieren des Modells
Modellinversionsangriffe nutzen die Ausgabe des Modells, um vertrauliche Daten aus den Trainingsdaten abzuleiten. Beispielsweise wird ein Gesichtserkennungsmodell auf einem Dataset trainiert, das sowohl öffentliche Personen als auch Privatpersonen enthält. Ein Angreifer könnte die Ergebnisse des Modells nutzen, um die Gesichter von Privatpersonen zu rekonstruieren und dadurch die Privatsphäre zu verletzen.
Heimliche Angriffe
Heimliche Vergiftungsmethoden zielen darauf ab, während des Trainings der Entdeckung zu entgehen. Angreiferinnen und Angreifer verändern auf subtile Weise einen kleinen Teil der Trainingsdaten, um keinen Alarm auszulösen. Das Ändern einiger Pixel in Bildern handschriftlicher Ziffern während des Trainings kann beispielsweise dazu führen, dass ein Ziffernerkennungsmodell bestimmte Ziffern falsch klassifiziert, ohne dass jemand die Änderung in den Schulungsdaten erkennt.
Minderung der Modellmanipulation
Modellmanipulationsangriffe können durch mehrere Sicherheitskontrollen abgemildert werden:
- Modellintegrität schützen: Beschränken Sie den Zugriff auf die Schulungspipeline, Architektur und Konfiguration des Modells mithilfe von Identitäts-, Netzwerk- und Datensicherheitssteuerelementen. Stellen Sie sicher, dass nur autorisierte Mitarbeiter Schulungscode oder Hyperparameter ändern können.
- Schützen von Schulungsdaten: Einschränken des Zugriffs auf Schulungsdatensets mithilfe von Zugriffssteuerungen und Datengovernance. Überprüfen Sie die Herkunft von Daten, und implementieren Sie Integritätsprüfungen, um nicht autorisierte Änderungen zu erkennen.
- Modellverhalten überprüfen: Testen Sie Modelle mit bekannten Benchmarks vor und nach dem Training, um unerwartete Verhaltensänderungen zu erkennen, die auf Vergiftungen hindeuten können.
- Überwachen von Modellausgaben: Stellen Sie ausgehende Inhaltsfilter bereit, um Anzeichen von Modellinversionsangriffen oder anderen Datenlecks durch Modellantworten zu erkennen.
- Use ML-BOM (Machine Learning Bill of Materials): Verfolgen Sie den Ursprung und die Transformationen von Daten und Modellen während der gesamten Pipeline, um einen Prüfpfad aufrechtzuerhalten.