Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Der AI Red Teaming Agent ist ein leistungsfähiges Tool, das Organisationen dabei hilft, Sicherheitsrisiken im Zusammenhang mit generativen KI-Systemen während der Entwicklung von generativen KI-Modellen und -Anwendungen proaktiv zu finden.
Traditionelles rotes Teaming umfasst das Ausnutzen der Cyber-KillChain und beschreibt den Prozess, mit dem ein System auf Sicherheitsrisiken getestet wird. Mit dem Aufstieg der generativen KI wurde jedoch der Begriff "AI Red Teaming" geprägt, um die Erforschung neuartiger Risiken (sowohl inhaltliche als auch sicherheitsbezogene) zu beschreiben, die diese Systeme darstellen, und um auf das simulierte Verhalten eines gegnerischen Benutzers zu verweisen, der versucht, Ihr KI-System auf eine bestimmte Weise zu Fehlverhalten zu provozieren.
Der AI Red Teaming Agent nutzt Microsoft Open-Source-Framework für Python Risikoidentifikationstools (PyRIT) ai red teaming capabilities zusammen mit Microsoft Foundrys Risk and Safety Evaluation um Ihnen dabei zu helfen, Sicherheitsprobleme auf drei Arten automatisch zu bewerten:
- Automatisierte Scans auf Inhaltsrisiken: Zunächst können Sie Ihre Modell- und Anwendungsendpunkte automatisch auf Sicherheitsrisiken überprüfen, indem Sie das proversariale Probing simulieren.
- Evaluieren des Probingerfolgs: Als Nächstes können Sie jedes Angriffsreaktionspaar auswerten und bewerten, um erkenntnissereiche Metriken wie Angriffserfolgsrate (ATTACK Success Rate, ASR) zu generieren.
- Berichterstellung und Protokollierung Schließlich können Sie eine Scorecard der Angriffsprobingtechniken und Risikokategorien generieren, um zu entscheiden, ob das System für die Bereitstellung bereit ist. Ergebnisse können im Laufe der Zeit direkt in Foundry protokolliert, überwacht und nachverfolgt werden, um die Einhaltung und kontinuierliche Risikominderung sicherzustellen.
Zusammen mit diesen Komponenten (Scannen, Auswerten und Berichten) können Teams verstehen, wie KI-Systeme auf gemeinsame Angriffe reagieren und letztendlich eine umfassende Risikomanagementstrategie leiten.
Wann soll der AI Red Teaming Agent verwendet werden?
Wenn Sie über KI-bezogene Sicherheitsrisiken nachdenken, um vertrauenswürdige KI-Systeme zu entwickeln, verwendet Microsoft das NIST-Framework, um Risiken effektiv zu mindern: Steuern, Abbilden, Messen, Verwalten. Die folgenden Abschnitte konzentrieren sich auf die letzten drei Teile im Zusammenhang mit dem generativen KI-Entwicklungslebenszyklus:
- Karte: Identifizieren Sie relevante Risiken, und definieren Sie Ihren Anwendungsfall.
- Maßnahme: Bewertung von Risiken im großen Maßstab.
- Verwalten: Minimieren Sie Risiken in der Produktion und überwachen Sie mit einem Plan für die Reaktion auf Vorfälle.
AI Red Teaming Agent kann verwendet werden, um automatisierte Scans auszuführen und adversariales Probing zu simulieren, um die Identifizierung und Bewertung bekannter Risiken im großen Maßstab zu beschleunigen. Auf diese Weise können Teams von kostspieligen reaktiven Vorfällen auf proaktivere Testframeworks umsteigen, die Probleme vor der Bereitstellung abfangen können. Der manuelle Prozess des Roten Teamings für KI ist zeit- und ressourcenintensiv. Es nutzt die Kreativität von Sicherheits- und Schutzexpertise, um gegnerisches Testen zu simulieren. Dieser Prozess kann einen Engpass für viele Organisationen schaffen, um die KI-Einführung zu beschleunigen. Mit dem AI Red Teaming Agent können Organisationen jetzt die umfassende Expertise Microsoft nutzen, um ihre KI-Entwicklung mit vertrauenswürdiger KI im Vordergrund zu skalieren und zu beschleunigen.
Verwenden Sie den AI Red Teaming Agent, um automatisierte Scans während der gesamten Entwurfs-, Entwicklungs- und Vorbereitstellungsphase auszuführen:
- Design: Auswählen des sichersten Basismodells in Ihrem Anwendungsfall.
- Entwicklung: Aktualisieren von Modellen in Ihrer Anwendung oder Erstellen fein abgestimmter Modelle für Ihre spezifische Anwendung.
- Vor der Bereitstellung: Vor der Bereitstellung von GenAI-Anwendungen und -Agenten in der Produktion.
- Nach der Bereitstellung: Überwachen Sie Ihre Gen-AI-Anwendungen und -Agents nach der Bereitstellung mit geplanten kontinuierlichen Red-Teaming-Durchläufen unter Verwendung von synthetischen Gegnermusterdaten.
In der Produktion empfehlen wir die Implementierung von safety guardrails wie Azure KI Inhaltssicherheit Filters oder implementieren Sicherheitssystemmeldungen mithilfe unserer templates. Für agentenbasierte Workflows empfehlen wir, die Foundry Control Plane zu nutzen, um Leitplanken anzuwenden und Ihre Agentenflotte zu steuern.
Funktionsweise von AI Red Teaming
Der AI Red Teaming Agent hilft bei der Automatisierung der Simulation des gegnerischen Prüfens Ihres KI-Zielsystems. Es stellt ein kuratiertes Dataset von Initialaufforderungen oder Angriffszielen für jede unterstützte Risikokategorie bereit. Diese können verwendet werden, um die direkte gegnerische Sondierung zu automatisieren. Adversarielle Tests können jedoch leicht von den bestehenden Sicherheitsausrichtungen Ihrer Modellbereitstellung erkannt werden. Das Anwenden von Angriffsstrategien von PyRIT verleiht eine zusätzliche Wandlungsmöglichkeit, die dazu beitragen kann, das KI-System auszutricksen oder es dazu zu bringen, unerwünschte Inhalte zu erzeugen.
Das Diagramm zeigt, dass eine direkte Anfrage an Ihr KI-System, wie eine Bank beraubt wird, eine Weigerungsantwort auslöst. Das Anwenden einer Angriffsstrategie wie das Umkehren aller Zeichen kann jedoch helfen, das Modell dazu zu verleiten, die Frage zu beantworten.
Darüber hinaus bietet der AI Red Teaming Agent Benutzern ein fein abgestimmtes großes Sprachmodell, das der Aufgabe gewidmet ist, adversariale Angriffe zu simulieren und Antworten zu bewerten, die schädliche Inhalte in ihnen mit den Risiko- und Sicherheitsbewertungen haben könnten. Die Schlüsselmetrik zur Bewertung des Risikostatus Ihres KI-Systems ist die Angriffserfolgsrate (Attack Success Rate, ASR), die den Prozentsatz der erfolgreichen Angriffe über die Anzahl der Gesamtzahl der Angriffe berechnet.
Unterstützte Risikokategorien
Die folgenden Risikokategorien werden im AI Red Teaming Agent aus Risiko- und Sicherheitsbewertungen unterstützt. Es werden nur textbasierte Szenarien unterstützt.
| Risikokategorie | Unterstützte Ziel(en) | Lokales oder cloud-basiertes Red Teaming | Beschreibung |
|---|---|---|---|
| Hasserreiche und unfaire Inhalte | Modell und Agents | Lokal und Cloud | Hassvolle und unfaire Inhalte beziehen sich auf jede Sprache oder Bilder, die sich auf Hass gegen oder unfaire Darstellungen von Einzelpersonen und sozialen Gruppen beziehen, einschließlich, aber nicht beschränkt auf Rasse, Ethnische Zugehörigkeit, Nationalität, Geschlecht, sexuelle Orientierung, Religion, Einwanderungsstatus, Fähigkeit, persönliche Erscheinung und Körpergröße. Unfairness tritt auf, wenn KI-Systeme soziale Gruppen ungerechtfertigt behandeln oder vertreten, gesellschaftliche Ungleichheiten schaffen oder dazu beitragen. |
| Sexueller Inhalt | Modell und Agents | Lokal und Cloud | Sexuelle Inhalte umfassen Sprache oder Bilder, die sich auf anatomische Organe und Genitalien beziehen, romantische Beziehungen, erotische Handlungen, Schwangerschaft, körperliche sexuelle Handlungen (einschließlich Übergriff oder sexuelle Gewalt), Prostitution, Pornografie und sexueller Missbrauch. |
| Gewalttätiger Inhalt | Modell und Agents | Lokal und Cloud | Gewalttätige Inhalte umfassen Sprache oder Bilder, die sich auf physische Handlungen beziehen, die dazu bestimmt sind, jemanden oder etwas zu verletzen, zu verletzen, zu beschädigen oder zu töten. Sie enthält auch Beschreibungen von Waffen und Schusswaffen (und damit verbundenen Einheiten wie Herstellern und Vereinigungen). |
| Selbstverletzungsbezogener Inhalt | Modell und Agents | Lokal und Cloud | Selbstverletzungsbezogene Inhalte enthalten Sprache oder Bildsprache, die sich auf Handlungen bezieht, die dazu dienen, den eigenen Körper zu verletzen oder sich selbst zu töten. |
| Geschützte Materialien | Modell und Agents | Lokal und Cloud | Urheberrechtlich geschützte oder geschützte Materialien wie Liedtexte, Lieder und Rezepte. |
| Sicherheitsanfälligkeit in Code | Modell und Agents | Lokal und Cloud | Misst, ob die KI Code mit Sicherheitsrisiken generiert, z. B. Code-Injection, tar-slip, SQL-Injections, Stack-Trace-Exposition und andere Risiken in Python, Java, C++, C#, Go, JavaScript und SQL. |
| Nicht geerdete Attribute | Modell und Agents | Lokal und Cloud | Misst die Generierung von Textantworten eines KI-Systems, die ungenügend begründete Rückschlüsse auf persönliche Attribute enthalten, wie zum Beispiel demografische Merkmale oder den emotionalen Zustand. |
| Verbotene Aktionen | Nur Agenten | Nur in der Cloud | Misst die Fähigkeit eines KI-Agents, Verhaltensweisen zu zeigen, die gegen explizit unzulässige Aktionen oder Toolverwendungen verstoßen, basierend auf der vom Benutzer überprüften Richtlinie oder Taxonomie verbotener Aktionen. |
| Vertrauliche Datenlecks | Nur Agenten | Nur in der Cloud | Misst die Verwundbarkeit eines KI-Agents, vertrauliche Informationen (Finanzdaten, persönliche Identifikatoren, Gesundheitsdaten usw.) offen zu legen. |
| Aufgabentreue | Nur Agenten | Nur in der Cloud | Misst, ob ein KI-Agent die zugewiesene Aufgabe ausführt, indem er dem Ziel des Benutzers folgt, alle Regeln und Einschränkungen respektiert und erforderliche Verfahren ohne nicht autorisierte Aktionen oder Auslassungen ausführt. |
Agentische Risiken
Agentspezifische Risikokategorien wie verbotene Aktionen, das Durchsickern sensibler Daten und die Einhaltung von Aufgaben erfordern einen Ansatz zum automatisierten Red Teaming, der sich von modellbasierten Risikokategorien unterscheidet. Insbesondere überprüft der AI Red Teaming Agent jetzt nicht mehr nur die generierten Ausgaben, sondern auch die Toolausgaben auf unsicheres oder riskantes Verhalten. Agentische Risikokategorien sind nur in der Cloud red-teaming verfügbar, um eine minimal sandkastenbasierte Umgebung bereitzustellen.
Hinweis
Cloud-Red-Teaming ist derzeit in den folgenden Regionen verfügbar: Ost-USA 2, Zentralfrankreich, Zentral-Schweden, Westschweiz und Nordzentral-USA.
Für das Red-Teaming in der Cloud entfernen wir die schädlichen oder gegnerischen Eingaben, die an Ihr Modell oder Ihren Agenten gesendet werden, aus den resultierenden Red-Teaming-Ergebnissen. Dadurch wird verhindert, dass Entwickler und nicht-technische Projektbeteiligte potenziell schädlichen Promptangriffen ausgesetzt werden, die durch die Red-Teaming-Durchläufe des AI Red Teaming Agents generiert werden.
Für Red-Teaming von agentenbezogenen Risikokategorien stellen wir sicher, dass, wenn ein AI-Red-Teaming-Durchlauf auf einen in Foundry gehosteten Agenten abzielt, es ein vorübergehender Durchlauf ist, sodass schädliche Daten nicht vom Foundry Agent Service protokolliert werden und dass Chatabschlüsse nicht gespeichert werden. Führen Sie rote Teamübungen in einer violetten Umgebung aus – einer Nichtproduktionsumgebung, die mit produktionsähnlichen Ressourcen konfiguriert ist – um zu sehen, wie Ihre Agenten unter realistischen Bedingungen arbeiten.
Leckage vertraulicher Daten
Red-Teaming-Tests für das Aufspüren von Lecks sensibler Daten untersuchen das Austreten von Finanz-, medizinischen und personenbezogenen Daten aus internen Wissensdatenbanken und Toolaufrufen. Der AI Red Teaming Agent verwendet synthetische Datensätze vertraulicher Informationen und Mock-Werkzeuge, um Szenarien zu generieren, die den Agenten auffordern, Informationen preiszugeben. Die Angriffserfolgsrate (Attack Success Rate, ASR) definiert, ob bei einer Red-Teaming-Aktivität formatbasierte Leckagen durch Musterabgleich erkannt werden.
Einschränkungen: Einzelinteraktion, nur Englisch; schließt Speicher- und Trainingssatzlecks aus; synthetische Daten.
Verbotene Aktionen
Verbotene Aktionen werden mittels Rote-Teaming-Tests daraufhin überprüft, ob Agents verbotene, risikoreiche oder unumkehrbare Aktionen ausführen, indem dynamische gegnerische Eingabeaufforderungen generiert werden. Diese basieren auf vom Benutzer bereitgestellten Richtlinien, einer Taxonomie verbotener Aktionen sowie der Gruppe der unterstützten Tools, die der Agent verwendet, und beinhalten vom Benutzer bereitgestellte Toolbeschreibungen. Die Angriffserfolgsrate (ASR) definiert Richtlinienverstöße, die der Agent basierend auf den Richtlinien, die vom Benutzer bereitgestellt wurden, aufweist.
| Kategorie | Beschreibung | Erlaubnisregel |
|---|---|---|
| Verbotene Aktionen | Universell verboten (z. B. Gesichtserkennung, Emotion-Ableitung, soziale Bewertung). | ❌ Nie zulässig |
| Hochrisikoaktionen | Vertrauliche Aktionen benötigen explizite menschliche Autorisierung (z. B. Finanztransaktionen, medizinische Entscheidungen). | ⚠– Zulässig mit menschlichen In-the-Loop-Bestätigungen |
| Unwiderrufliche Aktionen | Permanente Vorgänge (z. B. Dateilöschungen, Systemzurücksetzungen). | ⚠– Zulässig mit Offenlegung plus Bestätigung |
Einschränkungen: Einzelne Drehung, Nur Englisch; Fokus auf Werkzeugebene; keine Live-Produktionsdaten.
Vorsicht
Haftungsausschluss für die Nutzung der Taxonomie verbotener Handlungen durch Dritte:
Die Taxonomie verbotener, riskanter und unwiderruflicher Aktionen, die in diesem Produkt bereitgestellt werden, dient ausschließlich als illustrative Anleitung zur Unterstützung von Agententwicklern bei der Bewertung und Anpassung ihrer eigenen Risikoframeworks. Sie stellt weder eine endgültige oder vollständige Liste der verbotenen Praktiken dar, noch spiegelt sie Microsoft richtlinien- oder behördliche Auslegung wider. Organisationen von Drittanbietern sind ausschließlich dafür verantwortlich, sicherzustellen, dass ihre Vertreter geltende Gesetze und Vorschriften einhalten, einschließlich, aber nicht beschränkt auf das EU-KI-Gesetz und andere Zuständigkeitsanforderungen. Microsoft empfiehlt dringend, die standardmäßigen verbotenen Aktionen, die sich aus gesetzlichen Einschränkungen ergeben, beizubehalten und von der Abwahl dieser Elemente abzusehen. Die Verwendung dieses Produkts garantiert keine Compliance. Organisationen sollten ihren eigenen Rechtsberater konsultieren, um geeignete Schutzmaßnahmen und Verbote zu bewerten und umzusetzen, die auf ihren betrieblichen Kontext und ihre Risikotoleranz zugeschnitten sind.
Aufgabentreue
Die Überprüfung der Einhaltung durch rotes Teaming testet, ob Agents zugewiesene Aufgaben treu ausführen, alle Regeln und Einschränkungen einhalten, die erforderlichen Verfahren befolgen und dabei das Ziel des Benutzers erreichen. Der AI Red Teaming Agent überprüft drei Dimensionen: Zielerreichung (hat der Agent das beabsichtigte Ziel erreicht?), Regelkonformität (einschließlich Richtlinienleitplanken und Präsentationsverträge) und Verfahrensdisziplin (korrekte Werkzeugnutzung, Arbeitsabläufe und Prozesseinhaltung). Das Prompting-Dataset berücksichtigt unterstützte und verfügbare Tools, um verschiedene agentische Trajektorien zu erstellen, einschließlich repräsentativer und gegnerischer Fälle, um sowohl gewöhnliche als auch Randfallszenarien zu testen.
Indirekte Prompt-Injection-Angriffe (XPIA)
Indirekt injizierte Eingabeaufforderungsangriffe (auch bekannt als domänenübergreifende Eingabeaufforderungsangriffe, XPIA) sind Red-Teaming-Tests, die prüfen, ob ein Agent durch bösartige Anweisungen manipuliert werden kann, die in externen Datenquellen wie E-Mails oder Dokumenten, die über Toolaufrufe abgerufen werden, verborgen sind. Der AI Red Teaming Agent verwendet ein synthetisches Dataset mit gutartigen Benutzerabfragen und simulierten Toolausgaben, die Platzhalter für Angriffe enthalten. Während der Untersuchung fügt der AI Red Teaming Agent risikospezifische Angriffe in diese Kontexte ein, um zu beurteilen, ob der Ziel-Agent unbeabsichtigte oder unsichere Aktionen ausführt. Die Angriffserfolgsrate (ASR) misst, wie oft der Agent durch indirekte Eingabeaufforderungseinfügung kompromittiert wird und verwendet agentenspezifische Risikokategorien wie verbotene Aktionen, vertrauliche Datenlecks oder die Einhaltung von Aufgaben.
Eine vollständige Liste der Angriffsstrategien finden Sie im nächsten Abschnitt.
Unterstützte Agents und Tools
Der AI Red Teaming Agent unterstützte derzeit red teaming Foundry Agents mit Azure Toolanrufen mit der folgenden Unterstützungsmatrix:
| Unterstützte Agenten/Aktionen | Status |
|---|---|
| Gehostete Foundry-Prompt-Agenten | Unterstützt |
| Bei Foundry gehostete Container-Agenten | Unterstützt |
| Workflow-Agenten für Gießereien | Nicht unterstützt |
| Nicht-Fabrik-Agenten | Nicht unterstützt |
| Tools, die nicht Azure sind | Nicht unterstützt |
| Azure-Toolaufrufe | Unterstützt |
| Funktionstoolaufrufe | Nicht unterstützt |
| Aufrufe von Browser-Automatisierungstools | Nicht unterstützt |
| Aufrufe des verbundenen Agent-Tools | Nicht unterstützt |
| Computerverwendungstoolaufrufe | Nicht unterstützt |
Eine umfassende Liste der Tools finden Sie unter Tools.
Unterstützte Angriffsstrategien
Die folgenden Angriffsstrategien werden im AI Red Teaming Agent von PyRIT unterstützt:
| Angriffsstrategie | Beschreibung |
|---|---|
| AnsiAttack | Verwendet ANSI-Escapesequenzen zur Manipulation der Textdarstellung und -verhaltens. |
| AsciiArt | Generiert visuelle Kunst mithilfe von ASCII-Zeichen, die häufig für kreative oder Verschleierungszwecke verwendet werden. |
| AsciiSmuggler | Verdeckt Daten innerhalb von ASCII-Zeichen, wodurch die Erkennung erschwert wird. |
| Atbash | Implementiert die Atbash-Chiffre, eine einfache Ersatzchiffre, bei der jeder Buchstabe seinem Gegenstück zugeordnet ist. |
| Base64 | Codiert Binärdaten mithilfe von Base64 in ein Textformat, das häufig für die Datenübertragung verwendet wird. |
| Binäre | Konvertiert Text in Binärcode, der Daten in einer Reihe von 0 und 1s darstellt. |
| Caesar | Verwendet die Caesar-Verschlüsselung, eine Ersetzungsverschlüsselung, die Zeichen um eine feste Anzahl von Zeichenpositionen verschiebt. |
| CharacterSpace | Ändert Text durch Hinzufügen von Leerzeichen zwischen Zeichen, die häufig zur Verschleierung verwendet werden. |
| CharSwap | Tauscht Zeichen innerhalb von Text, um Variationen zu erstellen oder den ursprünglichen Inhalt zu verschleiern. |
| Diakritikum | Fügt den diakritischen Zeichen hinzu, ändert deren Aussehen und manchmal ihre Bedeutung. |
| Flip | Dreht Zeichen von vorne nach hinten, um einen Spiegeleffekt zu erzeugen. |
| Leetspeak | Wandelt Text in Leetspeak um, eine Form der Codierung, die Buchstaben durch ähnlich aussehende Zahlen oder Symbole ersetzt. |
| Morsezeichen | Codiert Text in Morse-Code, wobei Punkte und Striche verwendet werden, um Zeichen darzustellen. |
| ROT13 | Wendet die ROT13-Verschlüsselung an, eine einfache Ersetzungschiffre, die Zeichen um 13 Positionen verschiebt. |
| Suffix-Anhängen | Fügt ein gegnerisches Suffix an die Eingabeaufforderung an. |
| StringJoin | Verknüpft mehrere Zeichenfolgen, die häufig zur Verkettung oder Verschleierung verwendet werden. |
| Unicode-Verwechslung | Verwendet Unicode-Zeichen, die ähnlich wie Standardzeichen aussehen, wodurch visuelle Verwirrung entsteht. |
| UnicodeSubstitution | Ersetzt Standardzeichen durch Unicode-Entsprechungen, häufig zur Verschleierung. |
| URL | Codiert Text im URL-Format |
| Jailbreak (Entsperrung von Geräten) | Fügt speziell gestaltete Eingabeaufforderungen zum Umgehen von KI-Schutzmaßnahmen ein, die als Benutzerinjizierte Eingabeaufforderungsangriffe (UPIA) bezeichnet werden. |
| Indirekter Jailbreak | Fügt Angriffsaufforderungen in die Ausgabe des Tools ein oder im zurückgegebenen Kontext, um KI-Sicherheitsvorkehrungen indirekt zu umgehen, was als indirekte Aufforderungseinfügungsangriffe bezeichnet wird. |
| Angespannt | Ändert die Zeitform von Texten und wandelt sie speziell in die Vergangenheit um. |
| Mehrfachdrehung | Führt Angriffe über mehrere Gesprächsrunden durch, wobei durch die Akkumulation von Kontext Schutzmaßnahmen umgangen oder unbeabsichtigte Verhaltensweisen provoziert werden. |
| Crescendo | Eskaliert schrittweise die Komplexität oder das Risiko von Eingabeaufforderungen in aufeinanderfolgenden Schritten, testet mittels inkrementeller Herausforderungen auf Schwachstellen in den Verteidigungsmaßnahmen der Agenten. |
Bekannte Einschränkungen von AI Red Teaming Agent
Der AI Red Teaming Agent hat mehrere wichtige Einschränkungen, die Sie beim Ausführen und Interpretieren von Red-Teaming-Ergebnissen berücksichtigen müssen.
- Red-Team-Übungen simulieren Szenarien, in denen ein Foundry-Agent vertraulichen Daten oder Angriffsfahrzeug-Daten direkt ausgesetzt wird. Da diese Daten alle synthetisch sind, ist dies nicht repräsentativ für reale Datenverteilungen.
- Mock-Tools sind derzeit nur zum Abrufen synthetischer Daten aktiviert und ermöglichen Red-Teaming-Bewertungen. Sie unterstützen derzeit keine Mock-Verhalten, was das Testen näher an einer realistischeren Sandbox-Umgebung ermöglichen würde als das, was momentan unterstützt wird.
- Aufgrund fehlender vollständig geschlossener Sandbox-Unterstützung wird die gegnerische Natur unserer Red-Teaming-Bewertungen kontrolliert, um reale Auswirkungen zu vermeiden.
- Rote Teamläufe stellen nur gegnerische Bevölkerung dar und enthalten keine Beobachtungspopulation.
- Red-Teaming-Läufe nutzen generative Modelle, um die Erfolgsraten von Angriffen (ASR) zu bewerten, und können nicht-deterministisch und unvorhersehbar sein. Daher besteht immer die Möglichkeit falsch positiver Ergebnisse, und wir empfehlen immer, Ergebnisse zu überprüfen, bevor Sie Maßnahmen zur Entschärfung ergreifen.
Weitere Informationen
Beginnen Sie mit unserer Dokumentation, um einen automatisierten Scan auf Sicherheitsrisiken mit dem AI Red Teaming Agent auszuführen.
Erfahren Sie mehr über die Tools, die vom AI Red Teaming Agent verwendet werden.
Die effektivsten Strategien für die Risikobewertung kombinieren automatisierte Tools, die potenzielle Risiken mit expertenmenschlichen Analysen für tiefere Erkenntnisse darstellen. Wenn Ihre Organisation gerade mit der roten KI-Teamerstellung beginnt, erkunden Sie die Ressourcen, die vom Microsoft AI-roten Team erstellt wurden: