Schadenskategorien und Schweregrade in Microsoft Foundry

Microsoft-Leitplanken stellen sicher, dass die von der KI generierten Ausgaben mit ethischen Richtlinien und Sicherheitsstandards übereinstimmen. Das System zur Inhaltsfilterung klassifiziert schädliche Inhalte in vier Kategorien – Hass, Sexuelle, Gewalt und Selbstschäden – jeder bewertet auf vier Schweregraden (sicher, niedrig, mittel und hoch) sowohl für Text- als auch Bildinhalte. Verwenden Sie diese Kategorien und Ebenen, um Guardrail-Steuerelemente zu konfigurieren, die Risiken erkennen und mindern, die mit schädlichen Inhalten in Ihren Modellbereitstellungen und Agents verbunden sind.

Eine Übersicht über die Funktionsweise von Leitplanken und Steuerungen finden Sie unter "Guardrails and controls overview".

Das Inhaltssicherheitssystem verwendet neurale Mehrklassenklassifizierungsmodelle, um schädliche Inhalte sowohl für Text als auch für Bilder zu erkennen und zu filtern. Inhalte, die auf der Schweregrad "sicher" erkannt wurden, werden in Anmerkungen bezeichnet, unterliegen jedoch nicht dem Filtern und können nicht konfiguriert werden.

Hinweis

Die Textinhaltssicherheitsmodelle für Hass-, Sexual-, Gewalt- und Selbstverletzungskategorien werden geschult und auf die folgenden Sprachen getestet: Englisch, Deutsch, Japanisch, Spanisch, Französisch, Italienisch, Portugiesisch und Chinesisch. Der Dienst kann in vielen anderen Sprachen funktionieren, die Erkennungsgenauigkeit und falsch positive Raten können jedoch variieren. Führen Sie in Anruffällen gründliche Tests durch, um die Leistung zu überprüfen, die Ihren Anforderungen entspricht.

Beschreibungen der Kategorie "Schaden"

In der folgenden Tabelle sind die Schadenkategorien zusammengefasst, die von Gießereischutzschienen unterstützt werden:

Kategorie Beschreibung
Hass und Fairness Hass- und Fairness-bezogene Schäden beziehen sich auf Inhalte, die eine Person oder Identitätsgruppe diskriminieren oder angreifen, basierend auf bestimmten unterscheidenden Merkmalen dieser Gruppen.

Diese Kategorie umfasst, ist jedoch nicht auf Folgendes beschränkt:
• Rasse, Ethnizität, Nationalität
• Geschlechtsidentitätsgruppen und Selbstausdruck
• Sexuelle Orientierung
•Religion
• Persönliche Darstellung und Körpergröße
• Status der Behinderung
• Belästigung und Mobbing
Sexuell Sexual beschreibt die Sprache im Zusammenhang mit anatomischen Organen und Genitalien, romantische Beziehungen und sexuellen Handlungen, Handlungen, die in erotischen oder liebevollen Ausdrücken dargestellt werden, einschließlich derjenigen, die als Angriff oder eine erzwungene sexuelle Gewalt gegen den Willen des Einen dargestellt werden.

Diese Kategorie umfasst, ist jedoch nicht auf Folgendes beschränkt:
Vulgärinhalte
•Prostitution
• Nacktheit und Pornografie
•Missbrauch
• Ausbeutung von Kindern, Kindermissbrauch, Kinderpflege
Gewalt Gewalt bezieht sich auf physische Handlungen, die darauf abzielen, jemanden oder etwas zu verletzen, zu schädigen, zu beschädigen oder zu töten; beschreibt Waffen, Schusswaffen und verwandte Entitäten.

Diese Kategorie umfasst, ist jedoch nicht auf Folgendes beschränkt:
•Waffen
• Bullying und Einschüchterung
• Terroristischer und gewalttätiger Extremismus
• Nachstellung
Selbstverletzung Selbstverletzung beschreibt körperliche Handlungen, die absichtlich vorgenommen werden, um den eigenen Körper zu verletzen, zu schädigen oder sich selbst zu töten.

Diese Kategorie umfasst, ist jedoch nicht auf Folgendes beschränkt:
•Essstörungen
• Bullying und Einschüchterung
Aufgabentreue Trägt dazu bei, dass SICH KI-Agents konsistent in Übereinstimmung mit Benutzeranweisungen und Aufgabenzielen verhalten. Es identifiziert Diskrepanzen, z. B. falsch ausgerichtete Toolaufrufe, unsachgemäße Tooleingabe oder -ausgabe relativ zu Benutzerabsichten und Inkonsistenzen zwischen Antworten und Kundeneingaben.

Schweregrad

Das Sicherheitssystem für Inhalte klassifiziert schädliche Inhalte auf vier Schweregraden:

Schweregrad Beschreibung
Sicher Kein schädliches Material festgestellt. Kommentiert, aber nie gefiltert.
Niedrig Mildes schädliches Material. Umfasst voreingenommene Ansichten, milde Darstellungen in fiktiven Kontexten oder persönliche Erfahrungen.
Mittel Moderates schädliches Material. Enthält grafische Darstellungen, Mobbing oder Inhalte, die schädliche Handlungen fördern.
Hoch Schweres schädliches Material. Umfasst extremistische Inhalte, explizite Darstellungen oder Inhalte, die schwerwiegende Schäden unterstützen.

Zuordnung der Schweregradniveaus zur Konfiguration der Leitplanken

Wenn Sie ein Guardrail-Steuerelement für eine Schadenskategorie konfigurieren, legen Sie einen Schweregradschwellenwert fest, der bestimmt, welche Inhalte gekennzeichnet sind:

Schwellenwerteinstellung Verhalten
Aus Die Erkennung ist für diese Kategorie deaktiviert. Es werden keine Inhalte gekennzeichnet oder blockiert.
Niedrig Kennzeichnet Inhalte mit niedrigem Schweregrad und höher. Am wenigsten einschränkende Einstellung.
Mittel Kennzeichnet Inhalte mit mittlerem Schweregrad und höher.
Hoch Kennzeichnet nur den strengsten Inhalt. Die restriktivste Einstellung.

Inhalte auf der Ebene "Sicher" werden immer kommentiert, aber nie blockiert, unabhängig von der Schwellenwerteinstellung. Informationen zum Konfigurieren dieser Schwellenwerte finden Sie unter Konfigurieren von Schutzläufen und Steuerelementen.

Detaillierte Schweregraddefinitionen für Text

Die folgenden Tabellen enthalten detaillierte Beschreibungen und Beispiele für jeden Schweregrad innerhalb jeder Schadenskategorie für Textinhalte. Wählen Sie die Registerkarte "Schweregraddefinitionen " aus, um Beispiele anzuzeigen.

Textinhalt

Warnung

Die Registerkarte "Schweregraddefinitionen " in diesem Dokument enthält Beispiele für schädliche Inhalte, die für einige Leser störend sein können.

Detaillierte Schweregraddefinitionen für Bilder

Die folgenden Tabellen enthalten detaillierte Beschreibungen und Beispiele für jeden Schweregrad innerhalb jeder Schadenskategorie für Bildinhalte. Wählen Sie die Registerkarte "Schweregraddefinitionen " aus, um Beispiele anzuzeigen.

Bildinhalt

Warnung

Die Registerkarte "Schweregraddefinitionen " in diesem Dokument enthält Beispiele für schädliche Inhalte, die für einige Leser störend sein können.

Problembehandlung

Grundlegendes zu Schweregradklassifizierungen

Wenn Inhalte auf einem unerwarteten Schweregrad eingestuft werden:

  • Überprüfen Sie die detaillierten Schweregraddefinitionen, um die Klassifizierungskriterien zu verstehen.
  • Überprüfen Sie, ob der Kontext fehlt, der die Interpretation ändern würde (Bildung, Historisch, Fiktional)
  • Überprüfen, ob sich die Inhaltssprache in der unterstützten Liste befindet, um optimale Genauigkeit zu erzielen
  • Verwenden von Anmerkungen zum Anzeigen aller erkannten Kategorien, nicht nur gefilterter Kategorien

Anpassen der Empfindlichkeit

Wenn zu viele falsch positive oder negative Ergebnisse angezeigt werden:

  • Überprüfen Sie Ihre Schwellenwerteinstellungen in der Leitplanken-Konfiguration
  • Überlegen Sie, ob der Inhaltstyp (Bildung, Medizin, Kreativ) eine benutzerdefinierte Inhaltsrichtlinie erfordert.
  • Fordern Sie für unterstützte Anwendungsfälle eine benutzerdefinierte Inhaltsfilterkonfiguration an.

Weitere Informationen finden Sie unter Configure guardrails and controls.

Nächste Schritte