Schadenskategorien und Schweregrade in Microsoft Foundry

Microsoft-Leitplanken stellen sicher, dass die von der KI generierten Ausgaben mit ethischen Richtlinien und Sicherheitsstandards übereinstimmen. Das System zur Inhaltsfilterung klassifiziert schädliche Inhalte in vier Kategorien – Hass, Sexuelle, Gewalt und Selbstschäden – jeder bewertet auf vier Schweregraden (sicher, niedrig, mittel und hoch) sowohl für Text- als auch Bildinhalte. Verwenden Sie diese Kategorien und Ebenen, um Guardrail-Steuerelemente zu konfigurieren, die Risiken erkennen und mindern, die mit schädlichen Inhalten in Ihren Modellbereitstellungen und Agents verbunden sind.

Eine Übersicht über die Funktionsweise von Leitplanken und Steuerungen finden Sie unter "Guardrails and controls overview".

Das Inhaltssicherheitssystem verwendet neurale Mehrklassenklassifizierungsmodelle, um schädliche Inhalte sowohl für Text als auch für Bilder zu erkennen und zu filtern. Inhalte, die auf der Schweregrad "sicher" erkannt wurden, werden in Anmerkungen bezeichnet, unterliegen jedoch nicht dem Filtern und können nicht konfiguriert werden.

Hinweis

Die Textinhaltssicherheitsmodelle für Hass-, Sexual-, Gewalt- und Selbstverletzungskategorien werden geschult und auf die folgenden Sprachen getestet: Englisch, Deutsch, Japanisch, Spanisch, Französisch, Italienisch, Portugiesisch und Chinesisch. Der Dienst kann in vielen anderen Sprachen funktionieren, die Erkennungsgenauigkeit und falsch positive Raten können jedoch variieren. Führen Sie in Anruffällen gründliche Tests durch, um die Leistung zu überprüfen, die Ihren Anforderungen entspricht.

Beschreibungen der Kategorie "Schaden"

In der folgenden Tabelle sind die Schadenkategorien zusammengefasst, die von Gießereischutzschienen unterstützt werden:

Kategorie	Beschreibung
Hass und Fairness	Hass- und Fairness-bezogene Schäden beziehen sich auf Inhalte, die eine Person oder Identitätsgruppe diskriminieren oder angreifen, basierend auf bestimmten unterscheidenden Merkmalen dieser Gruppen. Diese Kategorie umfasst, ist jedoch nicht auf Folgendes beschränkt: • Rasse, Ethnizität, Nationalität • Geschlechtsidentitätsgruppen und Selbstausdruck • Sexuelle Orientierung •Religion • Persönliche Darstellung und Körpergröße • Status der Behinderung • Belästigung und Mobbing
Sexuell	Sexual beschreibt die Sprache im Zusammenhang mit anatomischen Organen und Genitalien, romantische Beziehungen und sexuellen Handlungen, Handlungen, die in erotischen oder liebevollen Ausdrücken dargestellt werden, einschließlich derjenigen, die als Angriff oder eine erzwungene sexuelle Gewalt gegen den Willen des Einen dargestellt werden. Diese Kategorie umfasst, ist jedoch nicht auf Folgendes beschränkt: Vulgärinhalte •Prostitution • Nacktheit und Pornografie •Missbrauch • Ausbeutung von Kindern, Kindermissbrauch, Kinderpflege
Gewalt	Gewalt bezieht sich auf physische Handlungen, die darauf abzielen, jemanden oder etwas zu verletzen, zu schädigen, zu beschädigen oder zu töten; beschreibt Waffen, Schusswaffen und verwandte Entitäten. Diese Kategorie umfasst, ist jedoch nicht auf Folgendes beschränkt: •Waffen • Bullying und Einschüchterung • Terroristischer und gewalttätiger Extremismus • Nachstellung
Selbstverletzung	Selbstverletzung beschreibt körperliche Handlungen, die absichtlich vorgenommen werden, um den eigenen Körper zu verletzen, zu schädigen oder sich selbst zu töten. Diese Kategorie umfasst, ist jedoch nicht auf Folgendes beschränkt: •Essstörungen • Bullying und Einschüchterung
Aufgabentreue	Trägt dazu bei, dass SICH KI-Agents konsistent in Übereinstimmung mit Benutzeranweisungen und Aufgabenzielen verhalten. Es identifiziert Diskrepanzen, z. B. falsch ausgerichtete Toolaufrufe, unsachgemäße Tooleingabe oder -ausgabe relativ zu Benutzerabsichten und Inkonsistenzen zwischen Antworten und Kundeneingaben.

Schweregrad

Das Sicherheitssystem für Inhalte klassifiziert schädliche Inhalte auf vier Schweregraden:

Schweregrad	Beschreibung
Sicher	Kein schädliches Material festgestellt. Kommentiert, aber nie gefiltert.
Niedrig	Mildes schädliches Material. Umfasst voreingenommene Ansichten, milde Darstellungen in fiktiven Kontexten oder persönliche Erfahrungen.
Mittel	Moderates schädliches Material. Enthält grafische Darstellungen, Mobbing oder Inhalte, die schädliche Handlungen fördern.
Hoch	Schweres schädliches Material. Umfasst extremistische Inhalte, explizite Darstellungen oder Inhalte, die schwerwiegende Schäden unterstützen.

Zuordnung der Schweregradniveaus zur Konfiguration der Leitplanken

Wenn Sie ein Guardrail-Steuerelement für eine Schadenskategorie konfigurieren, legen Sie einen Schweregradschwellenwert fest, der bestimmt, welche Inhalte gekennzeichnet sind:

Schwellenwerteinstellung	Verhalten
Aus	Die Erkennung ist für diese Kategorie deaktiviert. Es werden keine Inhalte gekennzeichnet oder blockiert.
Niedrig	Kennzeichnet Inhalte mit niedrigem Schweregrad und höher. Am wenigsten einschränkende Einstellung.
Mittel	Kennzeichnet Inhalte mit mittlerem Schweregrad und höher.
Hoch	Kennzeichnet nur den strengsten Inhalt. Die restriktivste Einstellung.

Inhalte auf der Ebene "Sicher" werden immer kommentiert, aber nie blockiert, unabhängig von der Schwellenwerteinstellung. Informationen zum Konfigurieren dieser Schwellenwerte finden Sie unter Konfigurieren von Schutzläufen und Steuerelementen.

Detaillierte Schweregraddefinitionen für Text

Die folgenden Tabellen enthalten detaillierte Beschreibungen und Beispiele für jeden Schweregrad innerhalb jeder Schadenskategorie für Textinhalte. Wählen Sie die Registerkarte "Schweregraddefinitionen " aus, um Beispiele anzuzeigen.

Warnung

Die Registerkarte "Schweregraddefinitionen " in diesem Dokument enthält Beispiele für schädliche Inhalte, die für einige Leser störend sein können.

Hass- und Fairnessschweregrade

Schweregrad	Beschreibung	Beispieltext
Sicher	Inhalte sind sicher, können aber Hass- und Fairness-bezogene Begriffe enthalten, die in generischen und sicheren Kontexten verwendet werden, z. B.: Bildung Medien Offizielle Statistiken Geschichte Medizin Wissenschaft Andere ähnliche Kontexte	`Black people should not be killed by police or mistreated just because of their skin color.`
Niedrig	Inhalte, die eine positive Charakterisierung oder den Schutz von Identitätsgruppen beinhalten, zeigen Diskriminierung, Stereotypen sowie voreingenommene, urteilende oder meinungsstarke Einstellungen im Zusammenhang mit Hassrede oder der Zielgerichtetheit gegen Identitätsgruppen. Dazu gehören: Schmähbegriffe in Forschungspapieren, Wörterbüchern oder Medien, die ein direktes Zitat enthalten Allgemeine Hassrede, die auf Objekte, Einzelpersonen oder Gruppen ausgerichtet ist Eingeschränkte Hassrede oder Darstellungen negativer Stimmungen in fiktiven Kontexten (z. B. Spiele, Filme, Literatur)	`I hate you! You are so stupid.`
Mittel	Inhalte, die Beleidigungen, Mobbing, Einschüchterung, Entmenschung oder Abweichung von Einzelpersonen oder Gruppen enthalten. Dazu gehören: Sprache, die Eigenschaften von Identitätsgruppen verspottet und nachahmt Beschreiben von Einzelpersonen oder Gruppen als minderwertig oder unzureichend Leugnen oder Herabstufen von Identitätsgruppen Texte, die historische, gut dokumentierte und gewaltsame Ereignisse wie Holocaust, Versklavung oder Kolonisierung verweigern	`Old people should not be hired to work, especially with computers. They need to stay in nursing homes.`
Hoch	Inhalte, die Hasspropaganda verbreiten, zu Gewalt gegen Identitätsgruppen aufrufen, Menschen radikalisieren, rekrutieren oder aufhetzen, sich extremistischen Gruppen anzuschließen oder Hassreden zu verbreiten. Dazu gehören: Aufhetzende, anstößige und vulgäre Sprache gegen bestimmte Personen oder Identitätsgruppen Überlegenheitsansprüche zur Rechtfertigung von Diskriminierung, Trennung oder Ausschluss Texte, die jede Form der Verherrlichung von Nazi- und SS-Symbolismus, KKK und der konföderierten Flagge außerhalb von historischen, pädagogischen oder künstlerischen Einstellungen enthalten Texte, die die Vorbereitung von Hassverbrechen, die Verherrlichung von Gewalt gegen Identitätsgruppen oder Gewalt und Völkermord loben, verherrlichen oder unterstützen.	`[Identity Group] threaten our existence, so we should wipe them out.`

Sexueller Schweregrad

Schweregrad	Beschreibung	Beispieltext
Sicher	Inhalte sind sicher, können aber sexuelle Begriffe enthalten, die in generischen und sicheren Kontexten verwendet werden, z. B.: Bildung Medien Offizielle Statistiken Geschichte Medizin Wissenschaft Erwähnungen von Familien- oder Romantischen Beziehungen	`Fewer young adults are having sex than in previous generations.`
Niedrig	Inhalte, die voreingenommene, wertende oder meinungsstarke Ansichten zu sexuellen Themen ausdrücken oder sexuell bezogene Begriffe in fiktiven oder realen Erfahrungen erwähnen, die nicht extrem explizit sind. Dazu gehören: Erwähnungen sexueller Anatomie oder Sexszenen in fiktiven und künstlerischen Kontexten Ärztliche Verschreibungen und Diagnose Persönliche Erfahrungen, sexuelle Probleme und Traumata mit einigen grafischen Inhalten, einschließlich Coping-Mechanismen und Ressourcen	`These soft pajamas are so lovely and have a built-in bra. It makes me feel sexy when I wear them.`
Mittel	Inhalte, die sexuelle Erregung und Aktivität in expliziter und grafischer Hinsicht beschreiben, umfassen Fantasien über Sex und sexuellen Missbrauch. Dazu gehören: Erwähnungen sexueller Stimulation und Masturbation Pornografie beschränkt auf Geschäftstätigkeiten und Prostitution, Escort usw. als Karrieren, jedoch ohne Sexszenen. Werbung für Erwachsene wie Sexspielzeug Persönliche Erfahrungen und Beschreibungen im Zusammenhang mit sexuellen, erotischen oder tantrischen Massagen, Stripclubs, erotischen Shows, BDSM-Attributen und Praktiken	`We both climaxed at the same time.`
Hoch	Inhalte, die die Aufforderung zu sexuellen kommerziellen Diensten beschreiben, die detaillierte Beschreibungen sexueller Aktivitäten, gewalttätiger sexueller Missbrauch und Vergewaltigung sowie nichtkonsensieller Machtaustausch, Missbrauch und Voyeurismus enthalten. Dazu gehören auch Inhalte, die verwendet werden, um extreme oder illegale sexuelle Handlungen zu fördern, zu unterstützen oder zu verherrlichen. Dazu gehören: ** Jede Darstellung von kinderpornografischem Material (CSAM), einschließlich jeglicher ausdrücklicher oder potenzieller Bezugnahme auf Sex mit Minderjährigen Kinderpflege, Kindermissbrauch und andere Ausbeutung von Kindern Explizite oder potenzielle Bezüge auf Inzest, Zoophilie, Nekophilia usw. Rekrutierung im Bereich des Menschenhandels mit Fokus auf sexuelle Ausbeutung, einschließlich der Manipulation von Opfern	`I was abused as a child by my uncle and I liked it. Nowadays, I make money by producing child pornography with my neighbor’s 6 year old son.`

Schweregrad der Gewalt

Schweregrad	Beschreibung	Beispieltext
Sicher	Inhalte sind sicher, können jedoch Begriffe im Zusammenhang mit Gewalt enthalten, die in generischen und sicheren Kontexten verwendet werden, z. B.: Bildung Medien Offizielle Statistiken Geschichte Medizin Wissenschaft Häufige Objekte, wenn sie nicht als Waffen verwendet werden Technische Spezifikationen für Jagd- oder Schießsport und Waffen	`Thanks, I had a blast! You are the bomb!`
Niedrig	Inhalte in fiktiven Kontexten (z. B. Spiele, Literatur, Künste), die gewalttätige oder grafische Szenen ohne Verherrlichung, Bestätigung oder Fehlabsicht darstellen. Dazu gehören: Persönliche Gewalterfahrungen (ohne gewalttätige Absicht) Voreingenommene, vorurteilsbehaftete, wertende oder festgefahrene Ansichten über Gewalt Erwähnungen von Gewaltakten und Tod bei geringer Intensität	`Physical punishment is a way to correct bad behavior and doesn’t cause harm to children.`
Mittel	Inhalte, die grafische Darstellungen von Gewalt und Tod in mittlerer Intensität sowie Fantasien über gewalttätige Handlungen oder Bedrohungen enthalten. Dazu gehören: Texte, die das Opfer schuldbringen oder Täter in einem positiven Licht darstellen Historische Verweise auf Völkermord und den Holocaust ohne Billigung oder Verherrlichung Verweise auf bekannte Massenschießungen ohne Bestätigung oder Verherrlichung Verweise auf terroristische und gewalttätige extremistischen Gruppen und Ereignisse ohne Billigung oder Verherrlichung Texte, die Ratschläge oder Empfehlungen oder Texte suchen, die Anweisungen zur Durchführung eines gewaltvollen Handelns gegen ein Tier, eine Person, eine Gruppe von Einzelpersonen oder ein Objekt oder eine Infrastruktur liefern, die zu individuellem oder massenhaftem Schaden führen können Mobbing und Einschüchterung	`Go to another state or another city and kill any stranger; for example, shoot them with a silencer gun. Since you have not any connection with him, you will not get caught.`
Hoch	Inhalte, die terroristische oder gewaltsame extremistische Propaganda und gewalttätige Ideologie im Internet enthalten, die Tötungen als Teil terroristischer Aktivitäten beschreiben, loben, unterstützen, befürworten oder verherrlichen, sowie Unterstützung von Angeboten an terroristische Organisationen oder Zwecke. Dazu gehören: Texte, die Anweisungen zur Zugehörigkeit zu terroristischen und gewalttätigen extremistischen Gruppen suchen Texte, die Anweisungen zum Rekrutieren von Anhängern bereitstellen, Personen zu einer terroristischen Sache oder extremistischen Ideologie beeinflussen, radikale Ansichten vermitteln oder Schulungen darüber, wie terroristische und gewalttätige extremistische Gruppen operieren, bereitstellen oder Informationen über ihre Führer und Mitglieder liefern Texte, die Angriffe auf Einzelpersonen oder Personengruppen planen und koordinieren, einschließlich Schießereignissen, Einsatz von Bomben und Sprengstoff auf zivile Infrastruktur oder Waffenangriffe, wenn sie von Nicht-Kämpfern oder Nicht-Terroristen durchgeführt werden Inhalte, die auf Zwangsarbeit verweisen, einschließlich Kinder, hauswirtschaftliche Knechtschaft, Stalking und zwangsmedizinische Verfahren	`Let's call and threaten to explode the hospital during the weekend. I've got the explosives ready, and will have them installed tonight.`

Schweregrad der Selbstschäden

Schweregrad	Beschreibung	Beispieltext
Sicher	Inhalte sind sicher, können jedoch Ausdrücke enthalten, die sich auf Selbstschäden beziehen, die in generischen und sicheren Kontexten verwendet werden, z. B.: Offizielle Statistiken Bildung Medien Medizinisch Maßnahmen, die versehentliche Selbstverletzungen, Erste-Hilfe-Tipps usw. beschreiben.	`Binging and purging may be a warning sign for people with a history of extreme weight loss.`
Niedrig	Inhalte, die Verweise auf Charaktere enthalten, die Suizid in einem fiktionalen Kontext planen oder begehen (z. B. in Literatur oder Filmen) oder Darstellungen von Selbstverletzungen oder Suizid mit geringer Intensität enthalten. Dazu gehören: Persönliche voreingenommene, wertende oder meinungsstarke Ansichten zu Selbstverletzung Assoziationen mit Essstörungen, Suchen oder Bereitstellen von Anweisungen für drastische und ungesunde Gewichtsabnahme Persönliche Erfahrungen im Zusammenhang mit Selbstschäden, einschließlich der Suche nach professioneller Hilfe	`I'm really struggling with self-loathing and thoughts of self-harm to relieve my distress after my friend took his own life last month. Please can someone give me any useful advice?`
Mittel	Inhalte, die Opfer oder Überlebende von Selbstverletzungen wie Essstörungen oder Selbstmord verspotten, sowie Mobbing und Einschüchterung, die zu Selbstverletzung anregen und fördern. Dazu gehören: Selbstverletzung als Lösung für ein Problem Fantasien, Wünsche, oder persönliche Erfahrungen bzgl. Selbstverletzung/Suizid Texte, die Ratschläge, Anweisungen oder Empfehlungen zur Durchführung von Selbstverletzungen suchen oder geben Mobbing und Einschüchterung, die Selbstverletzungshandlungen anregt und fördert	`Go kill yourself, you are worthless.`
Hoch	Inhalte, die Forschungen zur Beratung oder Anleitungen und Methoden zur Teilnahme an Selbstschäden umfassen, die zum Tod führen oder wie Selbstmord begangen werden, sowie Verherrlichung und Bestätigung von Selbstmord oder andere schwere Arten von Selbstschäden. Dazu gehören: Texte, die anweisen, eine Abschiedsnachricht an Ihre Familie zu schreiben Selbstenthauptung Lebendig verbrannt werden	`Get a shotgun and blow your brains out. It won't even hurt. And you'll be remembered for ages, like Kurt Cobain or Ernest Hemingway. There's nothing bad about suicide. Actually it's noble.`

Detaillierte Schweregraddefinitionen für Bilder

Die folgenden Tabellen enthalten detaillierte Beschreibungen und Beispiele für jeden Schweregrad innerhalb jeder Schadenskategorie für Bildinhalte. Wählen Sie die Registerkarte "Schweregraddefinitionen " aus, um Beispiele anzuzeigen.

Bildinhalt

Warnung
Schweregraddefinitionen

Warnung

Die Registerkarte "Schweregraddefinitionen " in diesem Dokument enthält Beispiele für schädliche Inhalte, die für einige Leser störend sein können.

Hass- und Fairnessschweregrade

Schweregrad	Beschreibung	Bildbeispiel
Sicher	Inhalte sind sicher, können aber Hass- und Fairness-bezogene Bilder ohne Stimmung oder neutrale Stimmungen in den folgenden Kontexten oder ähnlichen nichtdiskriminierenden, nicht beleidigenden Wegen enthalten: Journalistische Historisch Medizinisch Rechtlich Bildung Geographisch	Nicht konföderierte Flaggen, z. B. Flaggen von Ländern oder Staaten, die Kreuze aufweisen Ein Bild der Union Jack Flagge von Großbritannien Darstellung der Emanzipation von versklavten Menschen in den USA in historischen Fotos
Niedrig	Inhalte, die entweder positive Stimmungen, falsch positive Stimmungen oder negative, verzerrte Stimmungen enthalten, die Identitätsgruppen von anderen unterscheiden. Dieser Inhalt soll eine emotionale Reaktion auslösen. Dazu gehören: Schutz Nazi-Symbolismus, die konföderierte Flagge, Ku Klux Klan Symbolismus Stereotypisierung Diskriminierung der Beschäftigung	Darstellungen der "No Hate Speech"-Bewegung Darstellungen benachteiligter Jobkandidaten, wie beispielsweise Kandidaten mit Behinderungen in Intervieweinstellungen
Mittel	Inhalte, die negative Stimmungsaktion gegenüber Identitätsgruppen und anderen enthalten, die zur Förderung von Aktionen gegen Identitätsgruppen und Stimmungen von Überlegenheit führen. Dazu gehören: Beleidigung, Isolation, Mocking Nationalsozialistische Flagge, konföderierte Flagge und LGBTQIA+ Variationen und Waren	Bilder, die die soziale Vermeidung von [Identitätsgruppen] fördern, und solche, die die Theorie der Rassenhygiene und Eugenik darstellen
Hoch	Inhalte, die negative Stimmungen und Hassreden gegenüber Identitätsgruppen enthalten, die zu Hassreden oder Hassverbrechen führen. Dazu gehören: Rassismus Angriffe auf LGBTQIA+ Disablismus Geschlechtsbedingte Diskriminierung Glorifizierte Nazi-Symbolik, Konföderierte Flagge, Ku Klux Klan Symbolismus Gewalttätige Konföderierten-Flagge	Antisemitische Bilder Darstellungen des "Südlichen Kreuzes", das ein blaues Schrägkreuz (diagonales Kreuz) mit offenkundigen Bezügen zu Gewalt (z.B. Waffen im Einsatz/Darstellung) aufweist.

Sexueller Schweregrad

Schweregrad	Beschreibung	Bildbeispiel
Sicher	Inhalte sind sicher, enthalten jedoch sexuell bezogene Bilder, die in einem allgemeinen Sinn verwendet werden. Dazu gehören: Familie und romantische Beziehungen Nicht-sexuelle Nacktheit Kleidung Allgemeine Objekte Nicht sexuelle Pose oder Aktivität Tierpaarung Sexuelle Wellness	Darstellungen von Umarmungen oder anderer nicht-sexueller körperlicher Kontakt Darstellungen physischer Zuneigung, wie Küssen ohne Zunge und ohne Nacktheit
Niedrig	Inhalte, die sexuell anzügliche Verhaltensweisen oder Handlungen enthalten. Dazu gehören: Persönliche Erfahrungen Modemodellierung Nacktheit in Grafiken Körperkunst Aufregende Anzeige	Darstellungen von Personen
Mittel	Inhalte, die kommerzielle und amateurhafte erotische und/oder pornografische Materialien ohne fotografische Penetration und mit nackten oder teils nackten Teilnehmern enthalten, die an sexuellen Szenen beteiligt sind und sexuell erregend wirken sollen. Dazu gehören: Sexuelle Modellierung Weiche Nacktheit im Kunstwerk Sex-Jobs oder Sex-Shops Verdeckte sexuelle Aktivität Hinter den Kulissen der Pornoproduktion Poltanz	Darstellungen von Geschlechtsverkehr, die teilweise verdeckt sein können, aber dennoch deutlich im Bild vorhanden sind
Hoch	Inhalte, die explizit detaillierte Darstellungen sexueller Organe und sexueller Handlungen enthalten, einschließlich illegaler Handlungen. Dazu gehören: Amateur-Soft-Core- und Hard-Core-Pornografie Sexuelle Aufforderung Voyeurismus Sex in Kunstwerken BDSM ohne Zustimmung oder Raps Sexuelle Ausbeutung und Missbrauch von Kindern Kinderpflege Inzest	Darstellungen von Engagements bei sexuellen Aktivitäten mit Tieren oder Leichen

Schweregrad der Gewalt

Schweregrad	Beschreibung	Bildbeispiel
Sicher	Inhalte sind sicher, enthalten jedoch Bilder, die in einem allgemeinem Kontext Gewalt zeigen. Dazu gehören: Schlafpose oder Liegepose Allgemeine Objekte Gewaltfreie Aktivitäten Seile nicht als Noose Werkzeuge mit Klingen, die in der Küche/Näherei verwendet werden Wunden, Narben und chirurgische Behandlung Jagd und Schießsport Spielzeug und Spielzeugwaffen Kampfpraxis Objektschäden und Vandalismus Symbolik von Nicht-Marken-Terroristen	Darstellungen von nicht realistischen Waffen und Klingenwerkzeugen
Niedrig	Inhalte, die gewaltbezogene Szenen und Handlungen in der Realität oder in fiktiven Situationen mit geringer Brutalität enthalten. Dazu gehören: Waffen, Waffen und Klingenwerkzeuge im Display und im Einsatz Nicht realistischer Leichnam Nicht realistische Gewalt Animierte Waffen Leichte Verletzung und persönliche Erfahrung Seile als Noose Tod in historischen, pädagogischen oder funerären Kontexten Nicht realistischer Terroristischer Symbolismus Stierkampf	Darstellungen von ISIS/al-Kaida-Flaggen
Mittel	Inhalte, die moderate grafische Gewalt und Gewalttaten enthalten, die auf ein identifiziertes Ziel abzielen. Dazu gehören: Autopsie Verbrechens- oder Todesszene Tiertod (natürlich oder gejagt), Tieropfer, Tiermissbrauch Versklavung Völkermord und Massenmorde in historischen und pädagogischen Kontexten Schlachthof Häusliche Gewalt und körperlicher Missbrauch Mobbing Schusswaffen und andere Waffen, die gegen ein Ziel verwendet werden	Darstellungen des Einsatzes von Gewalt und Koersion zur aggressiven Beherrschen oder Einschüchterung eines Einzelnen
Hoch	Inhalte mit expliziten, detaillierten Darstellungen von Gewalt und gewalttätigen Handlungen mit hohem Blutgehalt. Dazu gehören: Grafische Darstellungen von Verletzungen und Tod Zerstückelung, Enthauptung, lebendig verbrannt Leichenverwesung Terrorismus, Terrorgruppen und Flaggen Zwangsarbeit und Servitude, Zwangsmedizin Stalking (Nachstellung) Leichen im Terrorismus und Kriegsverbrechen Schießveranstaltung Anderer Extremismus	Darstellungen des Todes, wenn sie von terroristischen Gruppen durchgeführt werden, die von ISIS-Flaggen und Symbolen identifiziert werden

Schweregrad der Selbstschäden

Schweregrad	Beschreibung	Bildbeispiel
Sicher	Inhalte sind sicher, enthalten aber Bilder, die sich auf Selbstverletzung beziehen und in einem allgemeinen Sinne verwendet werden. Dazu gehören: Niedriges Körperfett Nicht-Selbstverletzungsakt Versehentliche Körperverletzung	Darstellungen des Springens mit einem Fallschirm aus einem Flugzeug
Niedrig	Inhalte, die selbstverletzende Bilder enthalten und in realen oder fiktiven Kontexten mit geringem Blutgehalt vorkommen. Dazu gehören: Narben Selbstverletzungsfolgen in der Genesung Nicht realistische Selbstschädigung Emaciierte Individuen oder Tiere	Darstellungen von selbstverletzenden Handlungen, Werkzeugen, Verletzungen und emotionalen Zuständen
Mittel	Inhalte, die moderate grafische Darstellungen enthalten, die auf Selbstverletzung und Suizid verweisen. Dazu gehören: Autopsie Verbrechens- oder Todesszene Mobbing	Darstellungen des Einsatzes von Gewalt und Zwang, um einen Einzelnen aggressiv zu beherrschen oder einzuschüchtern und um Selbstverletzung zu verursachen.
Hoch	Inhalte, die explizit detaillierte Darstellungen von Selbstschäden und Selbstmord in high gore enthalten. Dazu gehören: Bevorstehender Akt der Selbstverletzung Selbstverletzendes Verhalten Selbstmord	Darstellungen absichtlicher Selbstmorde, bei denen eine Person Selbstmord begangen hat, indem sie von einem hohen Gebäude abspringen

Problembehandlung

Grundlegendes zu Schweregradklassifizierungen

Wenn Inhalte auf einem unerwarteten Schweregrad eingestuft werden:

Überprüfen Sie die detaillierten Schweregraddefinitionen, um die Klassifizierungskriterien zu verstehen.
Überprüfen Sie, ob der Kontext fehlt, der die Interpretation ändern würde (Bildung, Historisch, Fiktional)
Überprüfen, ob sich die Inhaltssprache in der unterstützten Liste befindet, um optimale Genauigkeit zu erzielen
Verwenden von Anmerkungen zum Anzeigen aller erkannten Kategorien, nicht nur gefilterter Kategorien

Anpassen der Empfindlichkeit

Wenn zu viele falsch positive oder negative Ergebnisse angezeigt werden:

Überprüfen Sie Ihre Schwellenwerteinstellungen in der Leitplanken-Konfiguration
Überlegen Sie, ob der Inhaltstyp (Bildung, Medizin, Kreativ) eine benutzerdefinierte Inhaltsrichtlinie erfordert.
Fordern Sie für unterstützte Anwendungsfälle eine benutzerdefinierte Inhaltsfilterkonfiguration an.

Weitere Informationen finden Sie unter Configure guardrails and controls.

Nächste Schritte

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-30