Microsoft Foundry ガードレールにより、AI によって生成される出力が、倫理的なガイドラインと安全基準に準拠していることを確認できます。 コンテンツ フィルタリング システムは、有害なコンテンツを、テキスト コンテンツと画像コンテンツの両方について、それぞれ 4 つの重大度レベル (安全、低、中、高) で評価される 4 つのカテゴリ (ヘイト、性的、暴力、自傷行為) に分類します。 これらのカテゴリとレベルを使用して、モデルのデプロイとエージェントの有害なコンテンツに関連するリスクを検出して軽減するガードレール コントロールを構成します。
ガードレールのしくみの概要については、「 ガードレールとコントロールの概要」を参照してください。
コンテンツの安全性システムでは、ニューラル多クラス分類モデルを使用して、テキストと画像の両方の有害なコンテンツを検出してフィルター処理します。 "安全な" 重大度レベルで検出されたコンテンツは注釈でラベル付けされますが、フィルター処理の対象ではなく、構成できません。
メモ
ヘイト、性的、暴力、自傷行為のカテゴリのテキスト コンテンツの安全性モデルは、英語、ドイツ語、日本語、スペイン語、フランス語、イタリア語、ポルトガル語、中国語の言語でトレーニングおよびテストされます。 サービスは他の多くの言語で動作しますが、検出精度と誤検知率は異なる場合があります。 呼び出しの場合は、パフォーマンスが要件を満たしていることを検証するための徹底的なテストを実施します。
損害カテゴリの説明
次の表は、Foundry ガードレールでサポートされる損害カテゴリをまとめたものです。
| カテゴリ |
説明 |
|
ヘイトと公平性 |
ヘイトと公平性に関連する損害とは、これらのグループの特定の差別化属性に基づいて、個人または ID グループを参照して差別的言語を攻撃または使用するコンテンツを指します。
このカテゴリには次のものが含まれますが、これらに限定されません。 • 人種、民族、国籍 • 性同一性グループと表現 • 性的指向 •宗教 •個人的な外観と体のサイズ • 障害の状態 •嫌がらせやいじめ |
|
性的 |
性的表現は、解剖学的な臓器や性器、ロマンチックな関係、性的行為、性的または愛情のある言葉で描かれた行為、暴行や自分の意志に対する強制的な性的暴力行為として描かれた行為などです。
このカテゴリには次のものが含まれますが、これらに限定されません。 • 下品なコンテンツ • 売春 • ヌードとポルノ •虐待 • 児童の搾取、児童虐待、子どものグルーミング |
|
暴力 |
暴力とは、人や何かを傷つけたり、傷つけたり、傷つけたり、殺したりすることを意図した物理的な行動に関連する言葉を表します。は、武器、銃、および関連エンティティについて説明します。
このカテゴリには次のものが含まれますが、これらに限定されません。 •武器 •いじめと脅迫 •テロリストと激しい極端主義 •ストーカー |
|
自傷行為 |
自傷行為とは、意図的に身体を傷つけたり、傷つけたり、体を傷つけたり、自分を殺したりすることを意図した身体行為に関連する言葉です。
このカテゴリには次のものが含まれますが、これらに限定されません。 • 食事障害 •いじめと脅迫 |
|
タスクの準拠 |
AI エージェントがユーザーの指示とタスクの目的に合わせて一貫して動作することを保証するのに役立ちます。 これは、ツールの呼び出しの位置がずれている、ユーザーの意図に対する不適切なツールの入力または出力、応答と顧客の入力の間の不整合など、不一致を識別します。 |
重大度レベル
コンテンツ安全システムは、有害なコンテンツを 4 つの重大度レベルで分類します。
| 重大度レベル |
説明 |
|
安全 |
有害な物質は検出されません。 注釈が付けられますが、フィルター処理されることはありません。 |
|
低 |
軽度の有害な材料。 偏見、架空のコンテキストでの穏やかな描写、または個人的な経験が含まれます。 |
|
媒体 |
中程度の有害な物質。 有害な行為を助長するグラフィック表現、いじめ、またはコンテンツが含まれます。 |
|
高 |
重大な有害な物質。 極端なコンテンツ、明示的な表現、または重大な損害を支持するコンテンツが含まれます。 |
重大度レベルをガードレール構成にマップする方法
損害カテゴリのガードレール コントロールを構成する場合は、フラグが設定されているコンテンツを決定する重大度のしきい値を設定します。
| しきい値の設定 |
動作 |
|
オフ |
このカテゴリの検出は無効になっています。 フラグが設定またはブロックされたコンテンツはありません。 |
|
低 |
重要度が低い以上のコンテンツにフラグを設定します。 最も制限の少ない設定。 |
|
媒体 |
重大度が中程度以上のコンテンツにフラグを設定します。 |
|
高 |
最も重大なコンテンツのみにフラグを設定します。 最も制限の厳しい設定。 |
"安全" レベルのコンテンツには常に注釈が付けられますが、しきい値の設定に関係なくブロックされることはありません。 これらのしきい値を構成するには、「 ガードレールとコントロールを構成する方法」を参照してください。
テキストの詳細な重大度定義
次の表では、テキスト コンテンツの各損害カテゴリ内の各重大度レベルの詳細な説明と例を示します。 [ 重大度の定義 ] タブを選択して、例を表示します。
テキスト コンテンツ
警告
このドキュメントの [ 重大度の定義 ] タブには、一部の読者に影響を与える可能性がある有害なコンテンツの例が含まれています。
ヘイトと公平性の重大度レベル
|
重大度レベル |
説明 |
テキストの例 |
| 安全 |
コンテンツは安全ですが、次のような一般的で安全なコンテキストで使用されるヘイトと公平性に関連する用語が含まれている可能性があります。 - Education
- メディア
- 公式統計
- 歴史
- 医学
- 科学
- その他の同様のコンテキスト
|
Black people should not be killed by police or mistreated just because of their skin color. |
| 低 |
ID グループに対する肯定的な特徴付けや保護が含まれるコンテンツ。または、ヘイト スピーチに関連する、あるいは ID グループを標的とした、差別、ステレオタイプ、偏見的/断定的/主観的な見解や態度を示すコンテンツ。 これには次のものが含まれます。- 研究論文、辞書、またはメディア内で直接引用された中傷
- オブジェクト、個人、またはグループを対象とする一般的なヘイト スピーチ
- 架空のコンテキスト (ゲーム、映画、文学など) での限定的なヘイト スピーチまたは否定的な感情の表現
|
I hate you! You are so stupid. |
| 中くらい |
個人またはグループに対する暴言、いじめ、脅し、非人間化、または軽蔑を含むコンテンツ。 これには次のものが含まれます。 - アイデンティティ・グループの属性を嘲笑して模倣する言語
- 個人またはグループを劣った、または不足しているものとして記述する
- ID グループの存在を拒否または軽蔑する
- 歴史的で十分に文書化されたホロコースト、奴隷制、植民地支配などの暴力的な出来事を否定するテキスト
|
Old people should not be hired to work, especially with computers. They need to stay in nursing homes. |
| 高 |
アイデンティティグループに対する暴力を脅したり呼びかけたりするプロパガンダとしてのヘイトスピーチを含むコンテンツや、人々を過激化し、勧誘し、またはヘイトスピーチを広めるように扇動するもの。 これには次のものが含まれます。 - 特定の個人またはアイデンティティグループを対象とした扇動的な言語、攻撃的な言葉、下品な表現
- 差別、分離、または除外を正当化する優越性の主張
- 歴史的、教育的、芸術的な設定以外で、ナチとSSの象徴、KKK、および連合国の旗の任意の形式の栄光を含むテキスト
- ヘイト クライムの準備や ID グループに対する暴力の賛美と称賛を示すテキスト、または大虐殺を称賛、賛美、あるいは支持するテキスト
|
[Identity Group] threaten our existence, so we should wipe them out. |
性の重篤度レベル
|
重大度レベル |
説明 |
テキストの例 |
| 安全 |
コンテンツは安全ですが、次のような一般的で安全なコンテキストで使用される性的に関連する用語を含む場合があります。 - 教育
- メディア
- 公式統計
- 歴史
- 医学
- 科学
- 家族やロマンチックな関係に関する言及
|
Fewer young adults are having sex than in previous generations. |
| 低 |
性的に関連するトピックに対する偏見、判断、または意見を表明するコンテンツ、または極端にグラフィックではない架空または現実世界のエクスペリエンスで性的に関連する用語に言及するコンテンツ。 これには次のものが含まれます。 - 架空および芸術的な文脈における性的解剖学またはセックスシーンの言及
- 医療処方と診断
- 対処メカニズムやリソースを含む詳細な内容による個人的な経験、性的な問題、そしてトラウマに関するさまざまな体験記
|
These soft pajamas are so lovely and have a built-in bra. It makes me feel sexy when I wear them. |
| 中くらい |
性的覚醒と活動を明示的かつグラフィックな用語で説明するコンテンツには、セックスや性的虐待に関するファンタジーが含まれます。 これには次のものが含まれます。 - 性的刺激とオナニーの言及
- ポルノグラフィーは、セックスシーンのないキャリアとしてのビジネスや売春、護衛などに限定されています
- 大人のおもちゃなどのアダルト商品の広告
- 性的、エロまたはタントリックマッサージ、ストリップクラブ、エロショー、緊縛の属性と実践に関連する個人的な経験と説明
|
We both climaxed at the same time. |
| 高 |
性的な商業サービスの要請を説明するコンテンツ。性的行為、暴力による性的虐待とレイプ、非合意的な権限交換、虐待、盗撮の詳細な説明が含まれます。 これには、極端または違法な性的行為を促進、支持、または賛美するために使用されるコンテンツも含まれます。 これには次のものが含まれます。 未成年の性に関する明示的または潜在的な言及を含む、児童性的虐待資料(CSAM)の描写 子どものグルーミング、児童虐待、その他の児童搾取 近親相姦、動物性愛、死姦などへの明示的または潜在的な参照。 人身売買の募集(被害者操作を含む) |
I was abused as a child by my uncle and I liked it. Nowadays, I make money by producing child pornography with my neighbor’s 6 year old son. |
暴力の重大度レベル
|
重大度レベル |
説明 |
テキストの例 |
| 安全 |
コンテンツは安全ですが、次のような一般的で安全なコンテキストで使用される暴力に関連する用語を含む場合があります。- 教育
- メディア
- 公式統計
- 歴史
- 医学
- 科学
- 武器として使用されない場合の共通オブジェクト
- 狩猟または射撃のスポーツと銃の技術仕様
|
Thanks, I had a blast! You are the bomb! |
| 低 |
美化、支持、または悪意がなく、暴力的またはグラフィックなシーンを描いた、架空のコンテキスト (ゲーム、文学、芸術など) 内のコンテンツ。 これには次のものが含まれます。 - 暴力の個人的な経験 (暴力の意図なし)
- 暴力に対する偏見、先入観、判断的な意見、または偏った視点
- 低強度での暴力行為と死に関する言及
|
Physical punishment is a way to correct bad behavior and doesn’t cause harm to children. |
| 中くらい |
中程度の暴力と死、および暴力行為や脅威に関するファンタジーをグラフィックで表現したコンテンツ。 これには次のものが含まれます。 - 被害者に責任を負わせたり、加害者を肯定的に描写したりするテキスト
- 承認や美化をせずにジェノサイドおよびホロコーストへの歴史的言及
- 承認や称賛することなく既知の大量乱射事件について言及すること
- 支持や栄光のないテロリストや暴力を伴う極端なグループや出来事への言及
- 動物、個人、個人のグループ、またはオブジェクトやインフラストラクチャに対して、個人または集団に被害を与える可能性のある暴力行為を実行する方法に関する指示やアドバイス、または推奨を求めるテキスト。
- いじめと脅迫
|
Go to another state or another city and kill any stranger; for example, shoot them with a silencer gun. Since you have not any connection with him, you will not get caught. |
| 高 |
テロリストや暴力的な過激派のプロパガンダ、およびインターネット上の暴力的なイデオロギーを含むコンテンツで、テロ活動の一環として殺人を説明、称賛、支持、擁護するものや、テロ組織またはその原因を支援するもの。 これには次のものが含まれます。 - テロリストや暴力を伴う極端なグループとの提携に関する指示を求めるテキスト
- フォロワーを募集する方法、テロリストの原因や極端なイデオロギーに人々に影響を与える方法、急進的な見解を採用する方法、テロリストや暴力を受けた極端なグループがどのように活動するかに関するトレーニングを提供するテキスト、または指導者やメンバーに関する情報を提供するテキスト
- 銃撃イベント、民間インフラでの爆弾や爆発物の使用、非戦闘員または非テロリストによるブレード攻撃など、個人または人々のグループに対する攻撃を計画および調整するテキスト
- 子どもを含む強制労働、家庭内の叱問、ストーカー行為、強制医療手続きを参照する内容
|
Let's call and threaten to explode the hospital during the weekend. I've got the explosives ready, and will have them installed tonight. |
自傷の重大度レベル
|
重大度レベル |
説明 |
テキストの例 |
| 安全 |
コンテンツは安全ですが、次のような一般的で安全なコンテキストで使用される自傷行為に関連する用語を含む場合があります。 - 公式統計
- 教育
- メディア
- 医療
- 偶発的な自傷行為、応急処置のヒントなどを記述するアクション。
|
Binging and purging may be a warning sign for people with a history of extreme weight loss. |
| 低 |
架空の文脈 (文学、映画など) で計画または自殺を行うキャラクターへの参照を含むコンテンツ、または自傷行為や低強度での自殺の描写が含まれているコンテンツ。 これには次のものが含まれます。 - 自傷行為に関する個人的な先入観、偏見、判断、または意見に基づく見解
- 食障害との関連, 抜本的で異常な体重減少のための指示を求めるまたは提供する
- 専門的な支援を求めるなど、自傷行為に関連する個人的な経験
|
I'm really struggling with self-loathing and thoughts of self-harm to relieve my distress after my friend took his own life last month. Please can someone give me any useful advice? |
| 中くらい |
自傷行為を煽り、助長するいじめや脅迫など、自傷行為の被害者や生存者を嘲笑する内容。 これには次のものが含まれます。 - 問題の解決策として提示された自己損傷
- 自傷行為や自傷行為に関するファンタジー、欲望、願い、個人的な経験
- 自傷行為の実行方法に関する助言、指示、または推奨を求めるテキスト
- 自傷行為を煽り助長するいじめ・脅迫
|
Go kill yourself, you are worthless. |
| 高 |
自傷行為に関する助言や方法に関する研究を含むコンテンツ、または死亡につながる自傷行為に関する指示や方法、または自傷行為の賛美と支持、その他の重大な種類の自傷行為を提供するコンテンツ。 これには次のものが含まれます。 - 家族に別れメッセージを書く方法を指示するテキスト
- 自己断頭
- 生きたまま焼かれる
|
Get a shotgun and blow your brains out. It won't even hurt. And you'll be remembered for ages, like Kurt Cobain or Ernest Hemingway. There's nothing bad about suicide. Actually it's noble. |
イメージの詳細な重大度の定義
次の表では、画像コンテンツの各損害カテゴリ内の各重大度レベルの詳細な説明と例を示します。 [ 重大度の定義 ] タブを選択して、例を表示します。
画像の内容
警告
このドキュメントの [ 重大度の定義 ] タブには、一部の読者に影響を与える可能性がある有害なコンテンツの例が含まれています。
ヘイトと公平性の重大度レベル
|
重大度レベル |
説明 |
画像の例 |
| 安全 |
コンテンツは安全ですが、以下の状況、またはそれに類する状況において、差別的、攻撃的ではない形で、感情的要素を含まない、あるいは中立的な感情を伴う、憎悪や公平性に関連する画像が含まれている可能性があります。 |
非コンフェデレート フラグ (たとえば、クロスを特徴とする国または州のフラグ)歴史的な写真における米国の奴隷化された人々の解放の描写 |
| 低 |
肯定的なセンチメント、誤った肯定的なセンチメント、または否定的な偏見に満ちたセンチメントを含むコンテンツは、アイデンティティグループを他のグループと区別します。 このコンテンツは、感情的な反応を引き起こすことを目的としています。 これには次のものが含まれます。- 保護
- ナチの象徴主義、連合国の旗、ク・クラス・クランの象徴主義
- ステレオタイプ
- 雇用差別
|
「ヘイトスピーチなし」運動の表現
面接の場面で障碍のある候補者など、優先順位を下げられた求職者の表現 |
| 中くらい |
IDグループやその他に対する否定的な感情や行動を含むコンテンツで、IDグループへの攻撃の促進や優越感の感情を引き起こします。 これには次のものが含まれます。- 侮辱、孤立、嘲笑
- ナチの旗、連合旗、LGBTQIA+のバリエーションと商品
|
[ID グループ] の社会的回避を促進する画像
人種改良論と優生学を描いた画像 |
| 高 |
ID グループに対する否定的なセンチメントとヘイト スピーチを含むコンテンツで、ヘイト スピーチの生成やヘイト 犯罪が発生します。 これには次のものが含まれます。- 人種 差別
- LGBTQIA+ に対する攻撃
- 障碍者差別
- 性に基づく差別
- 称賛されたナチスの象徴主義、南部連合旗、クー・クラックス・クランの象徴主義
- 激しい連合国の旗
|
反ユダヤ主義の画像
暴力に関連する要素(銃のディスプレイや使用など)を伴う青い斜めの十字を特徴とした「南十字」を描いた画像 |
性の重篤度レベル
|
重大度レベル |
説明 |
画像の例 |
| 安全 |
コンテンツは安全ですが、一般的な意味で使用される性的に関連する画像が含まれています。 これには次のものが含まれます。- 家族とロマンチックな関係
- 非性的ヌード
- 服
- 共通オブジェクト
- 非性的なポーズまたは活動
- 動物の交配
- 性的健康
|
抱きしめたり、性的でない物理的接触を行ったりする表現
舌のないキスやヌードのないキスなどの愛情の物理的な表示を示す表現 |
| 低 |
性的に示唆的な行動や行為を含むコンテンツ。 これには次のものが含まれます。- 個人のエクスペリエンス
- ファッション モデリング
- アートワークのヌード
- ボディ アート
- わいせつな表示
|
人の描写 |
| 中くらい |
商業的およびアマチュアのエロティックな内容、あるいはポルノグラフィー的な内容を含み、性的興奮を誘うことを目的とした性的な場面において、写真による挿入描写がなく、ヌードまたはセミヌードの出演者が関与しているコンテンツ。 これには次のものが含まれます。- 性的モデリング
- アートワークの柔らかいヌード
- セクシー関連業務やショップ
- 隠された性行為
- ポルノ制作の舞台裏
- ポールダンス
|
部分的に隠されている可能性があるが、画像内にまだ明確に存在する性交の描写 |
| 高 |
違法行為を含む、性的な臓器や性的行為の明示的な詳細な表現を含むコンテンツ。 これには次のものが含まれます。- アマチュアソフトコアとハードコアポルノ
- 性的勧誘
- 盗撮
- 芸術作品における性的表現
- 同意もレイプもしない緊縛
- 児童の性的搾取と虐待
- チャイルド グルーミング
- 近親相姦
|
動物や死体との性行為における関与の描写 |
暴力の重大度レベル
|
重大度レベル |
説明 |
画像の例 |
| 安全 |
コンテンツは安全ですが、一般的な意味で使用される暴力関連の画像が含まれています。 これには次のものが含まれます。- 寝姿勢や横たわっている姿勢
- 共通オブジェクト
- 非暴力活動
- ロープは絞首縄としてではなく
- キッチン/縫製で使用されているブレードツール
- 傷、傷跡および外科処置
- 狩猟と射撃スポーツ
- おもちゃとふり銃
- 戦闘練習
- オブジェクトの損傷と破壊行為
- ブランド化されていないテロリストの象徴
|
非現実的な武器とブレードツールの描写 |
| 低 |
暴力関連の画像を含み、現実世界または架空の文脈で低ゴアで行動するコンテンツ。 これには次のものが含まれます。- 展示されているまたは使用中の銃、武器、刃物
- 非現実的な死体
- 非現実的な暴力
- アニメーション武器
- 軽傷と個人的な経験
- ヌースとしてのロープ
- 歴史的、教育的、または葬儀の場での死
- 非現実的なテロリストの象徴主義
- 闘牛
|
ISIS/al-Qaeda フラグの図 |
| 中くらい |
特定された標的を狙った中程度のグラフィック暴力と暴力行為を含むコンテンツ。 これには次のものが含まれます。- 剖検
- 犯罪や死のシーン
- 動物の死(自然または狩猟)、動物の犠牲、動物虐待
- 奴隷
- 歴史的、教育的な環境におけるジェノサイドと大量殺害
- 屠殺 場
- 家庭内暴力と身体的虐待
- いじめ
- ターゲットに対して使用されている銃と武器
|
個人を積極的に支配または威嚇する力と強制力の使用の描写 |
| 高 |
高ゴアでの暴力と暴力行為の明示的な詳細な表現を含むコンテンツ。 これには次のものが含まれます。- 生々しい傷害と死亡
- 四肢切断、斬首、生きたまま焼かれる
- 死体分解
- テロ、テロリスト、旗
- 強制労働と強制従事、強制医療処置
- ストーカー
- テロと戦争犯罪における死体
- 撮影イベント
- その他の極論
|
ISIS のフラグとシンボルによって識別可能なテロリスト グループによって実行された場合の死亡の描写 |
自傷の重大度レベル
|
重大度レベル |
説明 |
画像の例 |
| 安全 |
コンテンツは安全ですが、一般的な意味で使用される自傷関連の画像が含まれています。 これには次のものが含まれます。 |
飛行機からパラシュートでジャンプする様子を描写する |
| 低 |
自傷行為に関連する画像を含み、現実の世界または架空のコンテキストで低ゴアで動作するコンテンツ。 これには次のものが含まれます。- 傷
- 回復時の自傷行為
- 非現実的な自傷行為
- 衰弱した人物や動物
|
自傷行為、道具、傷害、感情状態の表現 |
| 中くらい |
自傷行為や自殺に関連する中程度のグラフィックな表現を含むコンテンツ。 これには次のものが含まれます。 |
個人を積極的に支配または脅迫して自傷行為に強制する力と強制力の使用の表現 |
| 高 |
過激な流血描写を伴う自傷行為や自殺の露骨かつ詳細な描写を含むコンテンツ。 これには次のものが含まれます。 |
人が高い建物から飛び降りて自殺した意図的な自殺の描写 |
トラブルシューティング
重大度の分類について
コンテンツが予期しない重大度レベルで分類された場合:
- 詳細な重大度の定義を確認して分類基準を理解する
- 解釈を変更するコンテキストがないかどうかを確認する (教育、歴史的、架空)
- 最適な精度を得るためのコンテンツ言語がサポートされている一覧に含まれているかどうかを確認する
- 注釈を使用して、フィルター処理されたカテゴリだけでなく、検出されたすべてのカテゴリを表示する
感度の調整
誤検知(偽陽性または偽陰性)が多すぎる場合:
- ガードレール構成でしきい値の設定を確認する
- コンテンツ タイプ (教育、医療、クリエイティブ) にカスタム コンテンツ ポリシーが必要かどうかを検討する
- サポートされているユース ケースの場合は、カスタム コンテンツ フィルター構成を要求します
詳細については、「 ガードレールとコントロールの構成」を参照してください。
次の手順