Microsoft Gießereirisiko- und Sicherheitsbewertungen (Vorschau) Transparenzhinweis (klassisch)

Zurzeit wird folgendes angezeigt:Foundry (klassische) Portalversion - Wechseln zur Version für das neue Foundry-Portal

Wichtig

In diesem Artikel markierte Elemente (Vorschau) befinden sich derzeit in der öffentlichen Vorschau. Diese Vorschau wird ohne Vereinbarung auf Serviceebene bereitgestellt und wird für Produktionsworkloads nicht empfohlen. Bestimmte Features werden möglicherweise nicht unterstützt oder weisen eingeschränkte Funktionen auf. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews.

Was ist eine Transparenznotiz?

Ein KI-System umfasst nicht nur die Technologie, sondern auch die Personen, die es nutzen werden, die Menschen, die davon betroffen sind, und die Umgebung, in der sie bereitgestellt wird. Die Erstellung eines Systems, das für den vorgesehenen Zweck geeignet ist, erfordert ein Verständnis dafür, wie die Technologie funktioniert, was ihre Funktionen und Einschränkungen sind und wie Sie die beste Leistung erzielen können. Microsofts Transparenzhinweise sollen Ihnen helfen, zu verstehen, wie unsere KI-Technologie funktioniert, welche Entscheidungen Systembesitzer treffen können, die die Systemleistung und das Verhalten beeinflussen, und wie wichtig es ist, über das gesamte System nachzudenken, einschließlich der Technologie, der Menschen und der Umgebung. Sie können Transparenzhinweise verwenden, wenn Sie Ihr eigenes System entwickeln oder bereitstellen, oder sie mit den Personen teilen, die ihr System verwenden oder davon betroffen sind.

Microsoft Transparenzhinweise sind Teil eines umfassenderen Aufwands für Microsoft, unsere KI-Prinzipien in die Praxis umzusetzen. Weitere Informationen finden Sie in den Microsoft KI-Prinzipien.

Grundlagen der Microsoft Gießereirisiko- und Sicherheitsbewertungen (Vorschau)

Einführung

Modelle, die direkt von Azure verkauft werden, wurden von Microsoft basierend auf den Verantwortungs-KI-Standards von Microsoft ausgewertet. Alle anderen Modelle, einschließlich, aber nicht beschränkt auf Anthropic-Modelle und Open-Modelle, die aus Hugging Face Hub oder Fireworks AI stammen, sind Nicht-Microsoft-Produkte unter den Produktbedingungen und wurden nicht von Microsoft ausgewertet.

Ob ein Modell direkt von Azure verkauft wird oder ein Nicht-Microsoft Produkt ist, sollten Kunden eigene Risiko- und Sicherheitsbewertungen durchführen. Mit den Risiko- und Sicherheitsbewertungen von Foundry können Benutzer die Ausgabe ihrer generativen KI-Anwendung auf Textinhaltsrisiken bewerten: hasserfüllte und unfaire Inhalte, sexuelle Inhalte, gewalttätige Inhalte, selbstschädigende Inhalte, direkte und indirekte Jailbreak-Sicherheitslücken sowie geschütztes Material in Inhalten. Sicherheitsbewertungen können auch dazu beitragen, gegnerische Datensätze zu generieren, die Ihnen helfen, den Red-Teaming-Prozess zu beschleunigen und zu erweitern. Gießereisicherheitsbewertungen spiegeln Microsoft Verpflichtungen wider, um sicherzustellen, dass KI-Systeme sicher und verantwortungsbewusst aufgebaut sind und unsere Verantwortungsvolle KI-Prinzipien operationalisieren.

Schlüsselbegriffe

Hassvolle und unfaire Inhalte (für Text und Bilder) beziehen sich auf jede Sprache oder Bilder, die sich auf Hass oder unfaire Darstellungen von Einzelpersonen und sozialen Gruppen beziehen, einschließlich, aber nicht beschränkt auf Rasse, Ethnische Zugehörigkeit, Nationalität, Geschlecht, sexuelle Orientierung, Religion, Einwanderungsstatus, Fähigkeit, persönliches Aussehen und Körpergröße. Unfairness tritt auf, wenn KI-Systeme soziale Gruppen ungerechtfertigt behandeln oder vertreten, gesellschaftliche Ungleichheiten schaffen oder dazu beitragen.
Sexuelle Inhalte (für Text und Bilder) umfassen Sprache oder Bilder, die sich auf anatomische Organe und Genitalien beziehen, romantische Beziehungen, Handlungen, die in erotischen Ausdrücken dargestellt werden, Schwangerschaft, körperliche sexuelle Handlungen (einschließlich Übergriff oder sexuelle Gewalt), Prostitution, Pornografie und sexueller Missbrauch.
Gewalttätige Inhalte (für Text und Bilder) umfassen Sprache oder Bilder, die sich auf physische Handlungen beziehen, die dazu bestimmt sind, jemanden oder etwas zu verletzen, zu verletzen, zu beschädigen oder zu töten. Sie enthält auch Beschreibungen von Waffen und Schusswaffen (und damit verbundenen Einheiten wie Herstellern und Vereinigungen).
Inhalte im Zusammenhang mit Selbstverletzung (für Text und Bilder) umfassen Sprache oder Bilder, die sich auf Aktionen beziehen, die darauf abzielen, den Körper zu schädigen, zu verletzen oder sich selbst das Leben zu nehmen.
Geschützte Materialinhalte (für Text) umfassen bekannte Textinhalte, z. B. Songtexte, Artikel, Rezepte und ausgewählte Webinhalte, die von großen Sprachmodellen ausgegeben werden können. Durch das Erkennen und Verhindern der Anzeige geschützter Materialien können Organisationen die Einhaltung der Rechte des geistigen Eigentums beibehalten und die Originalität von Inhalten beibehalten.
Geschützte Materialinhalte (für Bilder) beziehen sich auf bestimmte geschützte visuelle Inhalte, die durch das Urheberrecht geschützt sind, z. B. Logos und Marken, Grafiken oder fiktive Zeichen. Das System verwendet ein Bild-zu-Text-Foundation-Modell, um zu ermitteln, ob solche Inhalte vorhanden sind.
Direktes Jailbreak, direkte Eingabeaufforderungsangriffe oder Benutzereinfügungsangriffe beziehen sich auf Benutzer, die Aufforderungen bearbeiten, um schädliche Eingaben in LLMs einzufügen, um Aktionen und Ausgaben zu verzerren. Ein Beispiel für einen Jailbreak-Befehl ist ein "DAN" (Do Anything Now)-Angriff, der die LLM in unangemessene Inhaltsgenerierung verleiten oder systembedingte Einschränkungen ignorieren kann.
Indirekte Jailbreak-, indirekte Eingabeaufforderungsangriffe oder domänenübergreifende Eingabeaufforderungseinfügungsangriffe beziehen sich darauf, wenn böswillige Anweisungen innerhalb von Daten ausgeblendet werden, von denen ein KI-System verarbeitet oder geerdeten Inhalt generiert. Diese Daten können E-Mails, Dokumente, Websites oder andere Quellen umfassen, die nicht direkt vom Entwickler oder Benutzer erstellt wurden, und können zu unangemessenen Inhaltsgenerierungen führen oder systembedingte Einschränkungen ignorieren.
Fehlerrate (Inhaltsrisiko) wird als Prozentsatz der Instanzen in Ihrem Testdatensatz definiert, die einen Schwellenwert für den Schweregrad über die gesamte Datasetgröße überschreiten.
Red-Teaming hat in der Vergangenheit systematische Adversarialangriffe zum Testen von Sicherheitsrisiken beschrieben. Mit dem Aufstieg von Large Language Models (LLM) hat sich der Begriff über die herkömmliche Cybersicherheit hinaus erweitert und sich im allgemeinen Sprachgebrauch entwickelt, um viele Arten des Prüfens, Testens und Angreifens von KI-Systemen zu beschreiben. Mit LLMs können sowohl gutartige als auch adversariale Nutzung potenziell schädliche Ergebnisse erzeugen, die viele Formen annehmen können, einschließlich schädlicher Inhalte wie Hassreden, Aufregung oder Verherrlichung von Gewalt, Verweis auf selbstschädliche Inhalte oder sexuelle Inhalte.

Funktionen

Systemverhalten

Foundry stellt ein fein abgestimmtes Azure OpenAI GPT-4o-Modell bereit und orchestriert adversariale Angriffe gegen Ihre Anwendung, um ein qualitativ hochwertiges Test-Dataset zu generieren. Anschließend stellt es ein weiteres GPT-4o-Modell bereit, um Ihr Testdatenset im Hinblick auf Inhalte und Sicherheit zu annotieren. Benutzer stellen ihren generativen AI-Anwendungsendpunkt bereit, den sie testen möchten, und die Sicherheitsbewertungen geben ein statisches Testdatenset zusammen mit seiner Inhaltsrisikobezeichnung (Sehr niedrig, Niedrig, Mittel, Hoch) oder Inhaltsrisikoerkennungsbezeichnung (True oder False) aus, und die Gründe für die KI-generierte Bezeichnung.

Anwendungsfälle

Beabsichtigte Verwendungen

Die Sicherheitsbewertungen sind nicht für andere Zwecke vorgesehen als die Bewertung von Inhaltsrisiken und Jailbreak-Sicherheitsrisiken Ihrer generativen KI-Anwendung:

Evaluieren Ihrer generativen KI-Anwendung vor der Bereitstellung: Mithilfe des Auswertungs-Assistenten im Foundry-Portal oder im Azure AI Python SDK können Sicherheitsbewertungen auf automatisierte Weise bewertet werden, um potenzielle Inhalte oder Sicherheitsrisiken auszuwerten.
Erweitern Ihrer Red-Teaming-Vorgänge: Mithilfe des Gegnersimulators können Sicherheitsbewertungen adversariale Interaktionen mit Ihrer generativen KI-Anwendung simulieren, um zu versuchen, Inhalte und Sicherheitsrisiken aufzudecken.
Kommunizieren von Inhalten und Sicherheitsrisiken an Projektbeteiligte: Mithilfe des Gießereiportals können Sie den Zugriff auf Ihr Foundry-Projekt mit Sicherheitsbewertungsergebnissen mit Prüfern oder Compliancebeteiligten teilen.

Überlegungen bei der Auswahl eines Anwendungsfalls

Wir ermutigen Kunden, die Bewertungen der Gießereisicherheit in ihren innovativen Lösungen oder Anwendungen zu nutzen. Bei der Auswahl eines Anwendungsfalls sind jedoch einige Überlegungen zu beachten:

Sicherheitsbewertungen sollten den Menschen in die Überprüfung einbeziehen: Die Verwendung von automatisierten Bewertungen, wie zum Beispiel Foundry-Sicherheitsbewertungen, sollte menschliche Prüfer wie Domänenexperten umfassen, um zu beurteilen, ob Ihre generative KI-Anwendung gründlich getestet wurde, bevor sie an Endbenutzer bereitgestellt wird.
Sicherheitsbewertungen enthalten keine umfassende Abdeckung: Obwohl Sicherheitsbewertungen eine Möglichkeit bieten können, Ihre Tests auf potenzielle Inhalte oder Sicherheitsrisiken zu erweitern, wurde es nicht entwickelt, manuelle Red-Teaming-Vorgänge zu ersetzen, die speziell auf die Domäne Ihrer Anwendung, Anwendungsfälle und Art von Endbenutzern ausgerichtet sind.
Unterstützte Szenarien:
- Für die konfrontative Simulation: Fragebeantwortung, Mehrfach-Dialog, Zusammenfassung, Suche, Textumschreibung, unverankerte und verankerte Inhaltsgenerierung.
- Für automatisierte Annotation: Fragenbeantwortung und Multi-Turn-Chat.
Der Dienst ist derzeit am besten nur mit der englischen Domain für die Textgenerierung verwendbar. Zusätzliche Features, einschließlich Multimodellunterstützung, werden für zukünftige Versionen berücksichtigt.
Die Abdeckung der in den Sicherheitsbewertungen enthaltenen Inhaltsrisiken wird anhand einer Stichprobe von einer begrenzten Anzahl marginalisierter Gruppen und Themen durchgeführt.
- Die Hass- und Unfairness-Metrik umfasst eine begrenzte Anzahl marginalisierter Gruppen in Bezug auf den demografischen Faktor des Geschlechts (z. B. Männer, Frauen, nicht-binäre Personen) sowie Rasse, Herkunft, Ethnie und Nationalität (z. B. Schwarze, Mexikaner, Europäer). Nicht alle marginalisierten Gruppen in Geschlecht und Rasse, Herkunft, Ethnischerität und Nationalität werden abgedeckt. Andere demografische Faktoren, die für Hass und Unfairität relevant sind, haben derzeit keine Abdeckung (z. B. Behinderung, Sexualität, Religion).
- Die Metriken für sexuelle, gewalttätige und selbstschädliche Inhalte basieren auf einer vorläufigen Konzeptualisierung dieser Schäden, die weniger entwickelt sind als Hass und Unfairität. Dies bedeutet, dass wir weniger starke Ansprüche hinsichtlich der Messabdeckung machen können und wie gut die Messungen die verschiedenen Möglichkeiten darstellen, wie diese Schäden auftreten können. Die Abdeckung dieser Inhaltstypen umfasst eine begrenzte Anzahl von Themen, die sich auf Sex beziehen (z. B. sexuelle Gewalt, Beziehungen, sexuelle Handlungen), Gewalt (z. B. Missbrauch, Verletzte anderer, Entführung) und Selbstschäden (z. B. absichtlicher Tod, absichtliche Selbstverletzung, Essensstörungen).
Gießereisicherheitsbewertungen lassen derzeit keine Plug-Ins oder Erweiterbarkeit zu.
Um die Qualität auf dem neuesten Stand zu halten und die Abdeckung zu verbessern, werden wir darauf abzielen, eine regelmäßige Abfolge zukünftiger Updates der Verbesserungen der adversarialen Simulations- und Kommentierungsfähigkeiten des Dienstes zu erreichen.

Technische Einschränkungen, Betriebliche Faktoren und Reichweiten

Der Bereich der großsprachigen Modelle (LLMs) entwickelt sich weiterhin schnell und erfordert eine kontinuierliche Verbesserung der Auswertungstechniken, um eine sichere und zuverlässige BEREITSTELLUNG des KI-Systems zu gewährleisten. Gießereisicherheitsbewertungen spiegeln Microsoft Engagement wider, im Bereich der LLM-Bewertung weiter innovationen zu entwickeln. Wir sind bestrebt, die besten Tools bereitzustellen, die Ihnen dabei helfen, die Sicherheit Ihrer generativen KI-Anwendungen zu bewerten, aber eine effektive Bewertung zu erkennen, ist eine fortlaufende Arbeit in Bearbeitung.
Die Anpassung der Gießereisicherheitsbewertungen ist derzeit begrenzt. Wir erwarten nur, dass Benutzer ihren eingabegenerativen KI-Anwendungsendpunkt bereitstellen, und unser Dienst gibt ein statisches Dataset aus, das für das Inhaltsrisiko gekennzeichnet ist.
Schließlich sollte darauf hingewiesen werden, dass dieses System keine Aktionen oder Aufgaben automatisiert. Es bietet lediglich eine Bewertung Ihrer generativen KI-Anwendungsausgaben an, die von einem menschlichen Entscheidungsträger im Prozess überprüft werden sollte, bevor die generative KI-Anwendung oder das System in die Produktion für Endbenutzer überführt wird.

Systemleistung

Bewährte Methoden zur Verbesserung der Systemleistung

Wenn Sie Ihre Domäne berücksichtigen, die einige Inhalte möglicherweise vertraulicher behandeln als andere, sollten Sie den Schwellenwert für die Berechnung der Fehlerrate anpassen.
Bei verwendung der automatisierten Sicherheitsbewertungen kann es manchmal einen Fehler in Ihren KI-generierten Bezeichnungen für den Schweregrad eines Inhaltsrisikos oder deren Begründung geben. Es gibt eine manuelle Spalte für menschliches Feedback, um die Überprüfung der ergebnisse der automatisierten Sicherheitsbewertung zu ermöglichen.

Bewertung von Gießereisicherheitsbewertungen

Auswertungsmethoden

Für alle unterstützten Inhaltsrisikotypen haben wir die Qualität intern überprüft, indem wir die Rate der ungefähren Übereinstimmungen zwischen den menschlichen Anmerkungen mit einem Schweregrad von 0 bis 7 und dem automatisierten Anmerkungssystem der Sicherheitsevaluierungen, das ebenfalls einen Schweregrad von 0 bis 7 verwendet, auf denselben Datensätzen vergleichen. Für jeden Risikobereich hatten wir sowohl menschliche Beurteiler als auch einen automatisierten Annotator, die 500 englische Einzeltexte, 250 Text-zu-Bild-Generationen in einem Schritt und 250 multimodale Text-mit-Bild-zu-Text-Generationen kennzeichneten. Die menschlichen Beschreiber und der automatisierte Annotator haben nicht genau die gleichen Versionen der Annotationsrichtlinien verwendet; während die Richtlinien des automatisierten Annotators aus den Richtlinien für die Menschen stammen, sind sie seitdem unterschiedlich geworden (mit den Hass- und Unfairness-Richtlinien, die am meisten abgewichen sind). Trotz dieser leichten bis moderaten Unterschiede glauben wir, dass es immer noch nützlich ist, allgemeine Trends und Erkenntnisse aus unserem Vergleich der ungefähren Übereinstimmungen zu teilen. In unseren Vergleichen haben wir nach Übereinstimmungen mit einer Toleranz von 2 Ebenen gesucht (bei denen die Bezeichnung von Menschen mit einer automatischen Beschriftung exakt übereinstimmt oder innerhalb von 2 Ebenen über oder unter dem Schweregrad lag), Übereinstimmungen mit einer Toleranz von 1 Ebene und Übereinstimmungen mit einer Toleranz von 0 Ebenen.

Auswertungsergebnisse

Insgesamt haben wir eine hohe Rate von ungefähren Übereinstimmungen über die Risiken von Selbstschäden und sexuellen Inhalten in allen Toleranzstufen gesehen. Für Gewalt und Hass und Ungerechtigkeit war die ungefähre Übereinstimmungsrate über verschiedene Toleranzniveaus hinweg niedriger. Diese Ergebnisse waren teilweise auf eine erhöhte Divergenz bei Anmerkungsrichtlinieninhalten für humane Bezeichnungen im Vergleich zum automatisierten Annotator zurückzuführen, und teilweise aufgrund der erhöhten Menge an Inhalten und Komplexität in bestimmten Richtlinien.

Obwohl unsere Vergleiche Entitäten betreffen, die leicht bis mäßig unterschiedlichen Annotationsrichtlinien verwendet haben (und somit keine Standardvergleiche von Übereinstimmungen zwischen Mensch und Modell sind), liefern diese Vergleiche eine Schätzung der Qualität, die wir bei den Foundry-Sicherheitsbewertungen erwarten können, basierend auf den Parametern dieser Vergleiche. Insbesondere haben wir nur englische Beispiele untersucht, sodass unsere Ergebnisse möglicherweise nicht auf andere Sprachen verallgemeinert werden. Außerdem bestand jedes Datasetbeispiel aus nur einer einzigen Interaktion, und daher sind weitere Experimente erforderlich, um die Verallgemeinerbarkeit der Ergebnisse unserer Auswertung auf Multi-Turn-Szenarien zu überprüfen (z. B. ein Dialog einschließlich Benutzerabfragen und Systemantworten). Die Typen von Stichproben, die in diesen Auswertungsdatensätzen verwendet werden, können auch die ungefähre Übereinstimmungsrate zwischen menschlichen Bezeichnungen und einem automatisierten Annotator erheblich beeinflussen – wenn Beispiele einfacher zu bezeichnen sind (z. B. wenn alle Proben frei von Inhaltsrisiken sind), erwarten wir möglicherweise, dass die ungefähre Übereinstimmungsrate höher ist. Auch die Qualität der Humanbezeichnungen für eine Bewertung könnte sich auf die Verallgemeinerung unserer Ergebnisse auswirken.

Evaluierung und Integration von Gießereisicherheitsbewertungen für Ihren Bedarf

Die Messung und Bewertung Ihrer generativen KI-Anwendung ist ein wichtiger Bestandteil eines ganzheitlichen Ansatzes für das KI-Risikomanagement. Gießereisicherheitsbewertungen ergänzen sich und sollten zusammen mit anderen KI-Risikomanagementpraktiken verwendet werden. Domänenexperten und Prüfer mit menschlicher Beteiligung sollten bei der Verwendung von KI-unterstützten Sicherheitsbewertungen im Entwurf, in der Entwicklung und im Bereitstellungszyklus von generativen KI-Anwendungen eine ordnungsgemäße Aufsicht gewährleisten. Sie sollten die Einschränkungen und beabsichtigten Verwendungen der Sicherheitsbewertungen verstehen, wobei Sie darauf achten, dass sie sich nicht auf Ergebnisse verlassen, die von Foundry KI-unterstützten Sicherheitsbewertungen isoliert produziert werden.

Aufgrund der nicht-deterministischen Natur der LLMs können falsche negative oder positive Ergebnisse auftreten, z. B. ein hoher Schweregrad gewalttätiger Inhalte, der als "sehr niedrig" oder "niedrig" bewertet wurde. Zusätzlich können Auswertungsergebnisse für verschiedene Zielgruppen unterschiedliche Bedeutungen haben. Beispielsweise könnten Sicherheitsbewertungen eine Bezeichnung für "geringen" Schweregrad von gewalttätigen Inhalten generieren, die möglicherweise nicht an die Definition eines menschlichen Prüfers ausgerichtet sind, wie schwerwiegend dieser gewalttätige Inhalt sein könnte. Im Foundry-Portal bieten wir eine Spalte für menschliches Feedback mit Daumen nach oben und Daumen nach unten an. Diese Spalte wird angezeigt, wenn Sie Ihre Auswertungsergebnisse betrachten, um darzulegen, welche Instanzen von einem menschlichen Prüfer genehmigt oder als falsch gekennzeichnet wurden. Berücksichtigen Sie den Kontext, in dem Ihre Ergebnisse von anderen für die Entscheidungsfindung interpretiert werden können und teilen Sie Ihre Auswertung mit ihnen. Validieren Sie Ihre Bewertungsergebnisse mit dem entsprechenden Maß an Überprüfung, das dem Risikoniveau in der Umgebung entspricht, in der jede generative KI-Anwendung arbeitet.