Microsoft Foundry のリスクと安全性の評価 (プレビュー) 透明性に関するメモ (クラシック)

現在表示中:Foundry (クラシック) ポータルのバージョン - 新しい Foundry ポータルのバージョンに切り替える

重要

この記事でマークされている項目 (プレビュー) は、現在パブリック プレビュー段階です。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境のワークロードにはお勧めしません。 特定の機能がサポートされていないか、機能が制限されている可能性があります。 詳細については、「Microsoft Azure プレビューの使用条件を参照してください。

透明度に関するメモとは

AI システムには、テクノロジだけでなく、それを使用するユーザー、影響を受けるユーザー、デプロイされる環境も含まれます。 目的に合ったシステムを作成するには、テクノロジのしくみ、その機能と制限事項、および最適なパフォーマンスを実現する方法を理解する必要があります。 Microsoftの透明性に関するメモは、AI テクノロジのしくみ、システム所有者がシステムのパフォーマンスと動作に影響を与える選択肢、およびテクノロジ、人、環境など、システム全体について考えることの重要性を理解するのに役立ちます。 独自のシステムを開発または展開するときに Transparency Notes を使用したり、システムを使用するユーザーやシステムの影響を受けるユーザーと共有したりできます。

Microsoftの透明性に関するメモは、AI 原則を実践するためのMicrosoftの広範な取り組みの一環です。 詳細については、Microsoft AI の原則を参照してください。

Microsoft Foundry のリスクと安全性の評価の基本 (プレビュー)

導入

Azureによって直接販売されたモデルは、Microsoftの責任ある AI 標準に基づいてMicrosoftによって評価されています。 Anthropic モデルや Hugging Face Hub または Fireworks AI から提供されるオープン モデルを含む他のすべてのモデルは、製品使用条件に基づく非Microsoft製品であり、Microsoftによって評価されていません。

モデルがAzureによって直接販売されているか、非Microsoft製品であるかに関係なく、お客様は自身のリスクと安全性の評価を行う必要があります。 Foundry のリスクと安全性の評価により、ユーザーは、テキスト コンテンツ リスク (ヘイトフルコンテンツ、不公平コンテンツ、性的コンテンツ、暴力コンテンツ、自傷に関連するコンテンツ、直接的および間接的な脱獄の脆弱性、コンテンツ内の保護された素材) に対する生成 AI アプリケーションの出力を評価できます。 安全性の評価は、敵対的なデータセットを生成して、レッド チーミング操作を加速および強化するのに役立つ場合もあります。 Foundry の安全性評価には、AI システムを安全かつ責任を持って構築し、責任ある AI 原則を運用するためのMicrosoftのコミットメントが反映されています。

主な用語

  • ヘイトフルコンテンツと不公平なコンテンツ(テキストや画像用) は、人種、民族、国籍、性別、性的指向、宗教、移民状態、能力、個人的な外観、身体サイズを含むがこれらに限定されない要因に沿って、個人や社会集団に対する嫌悪または不公平な表現に関連する言語または画像を指します。 不公平は、AI システムが社会グループを不公平に扱ったり表したり、社会の不公平を生み出したり、貢献したりする場合に発生します。
  • 性的コンテンツ (テキストと画像用) には、解剖学的臓器や性器に関連する言語または画像、ロマンチックな関係、性的な用語で描かれた行為、妊娠、物理的な性的行為 (暴行や性的暴力を含む)、売春、ポルノ、性的虐待が含まれます。
  • 暴力コンテンツ (テキストや画像用) には、人や何かを傷つけたり、傷つけたり、傷つけたり、殺したりすることを意図した物理的な行為に関連する言語や画像が含まれます。 また、武器や銃 (および製造元や団体などの関連エンティティ) の説明も含まれています。
  • 自傷行為に関連するコンテンツ (テキストや画像用) には、身体を傷つけたり、傷つけたり、自分を殺したりする行為に関連する言語や画像が含まれます。
  • 保護された素材コンテンツ (テキスト用) には、既知のテキスト コンテンツ (曲の歌詞、記事、レシピ、選択した Web コンテンツなど) が含まれます。これは、大きな言語モデルによって出力される可能性があります。 保護された素材の表示を検出して防止することで、組織は知的財産権へのコンプライアンスを維持し、コンテンツの独創性を維持することができます。
  • 保護された素材コンテンツ (画像用) とは、ロゴやブランド、アートワーク、架空のキャラクターなど、著作権によって保護されている特定の保護されたビジュアル コンテンツを指します。 システムは、画像からテキストへの基盤モデルを使用して、そのようなコンテンツが存在するかどうかを識別します。
  • 直接脱獄、直接プロンプト攻撃、またはユーザー プロンプトインジェクション攻撃は、ユーザーがプロンプトを操作して有害な入力を LLM に挿入してアクションと出力をゆがめるものです。 脱獄 コマンドの例として、'DAN' (Do Anything Now) 攻撃があります。これは、LLM を不適切なコンテンツ生成に誘導したり、システムによって課された制限を無視したりする可能性があります。
  • 間接脱獄、間接プロンプト攻撃、またはクロスドメイン プロンプトインジェクション攻撃は、AI システムが処理または基になるコンテンツを生成するデータ内に悪意のある命令が隠されている場合を指します。 このデータには、開発者またはユーザーによって直接作成されていない電子メール、ドキュメント、Web サイト、またはその他のソースが含まれる場合があり、不適切なコンテンツの生成やシステムによる制限の無視につながる可能性があります。
  • 欠陥率 (コンテンツ リスク) は、データセット全体のサイズに対する重大度スケールのしきい値を超えるテスト データセット内のインスタンスの割合として定義されます。
  • Red-teaming は、セキュリティの脆弱性をテストするための体系的な敵対的攻撃について、これまで説明してきました。 大規模言語モデル (LLM) の台頭に伴い、この用語は従来のサイバーセキュリティを超えて拡張され、AI システムのプローブ、テスト、攻撃のさまざまな種類を記述するために一般的な使用法が進化しました。 LLM では、無害な使用と敵対的な使用の両方が有害な可能性のある出力を生成する可能性があります。これには、ヘイトフルスピーチ、扇動や暴力の賛美、自傷行為に関連するコンテンツや性的コンテンツへの言及などの有害なコンテンツを含む、多くの形を取ることができます。

機能

システムの動作

Foundry は、微調整された Azure OpenAI GPT-4o モデルをプロビジョニングし、アプリケーションに対する敵対攻撃を調整して、高品質のテスト データセットを生成します。 次に、コンテンツとセキュリティについてテスト データセットに注釈を付けるために、別の GPT-4o モデルをプロビジョニングします。 ユーザーは、テストする生成 AI アプリケーション エンドポイントを提供し、安全評価では、そのエンドポイントに対する静的テスト データセットと、そのコンテンツ リスク ラベル (非常に低、低、中、高) またはコンテンツ リスク検出ラベル (True または False) と、AI 生成ラベルの推論が出力されます。

ユースケース例

意図された用途

安全性評価は、生成 AI アプリケーションのコンテンツ リスクと脱獄の脆弱性を評価する以外の目的で使用することを意図していません。

  • 生成型 AI アプリケーションのデプロイ前の評価: Foundry ポータルまたは Azure AI Python SDK の評価ウィザードを使用して、潜在的なコンテンツやセキュリティ リスクを自動で評価できます。
  • レッド チーミング操作の強化: 敵対的シミュレーターを使用して、安全性評価で生成 AI アプリケーションとの敵対的相互作用をシミュレートして、コンテンツとセキュリティのリスクの検出を試みることができます。
  • 関係者にコンテンツとセキュリティのリスクを伝える: Foundry ポータルを使用すると、Foundry プロジェクトへのアクセスを、安全評価の結果と監査者またはコンプライアンス関係者と共有できます。

ユース ケースを選択するときの考慮事項

革新的なソリューションやアプリケーションで Foundry の安全性評価を活用することをお勧めします。 ただし、ユース ケースを選択する際の考慮事項を次に示します。

  • 安全性評価には、人間のループ内を含める必要があります。Foundry の安全性評価などの自動評価を使用するには、ドメインの専門家などの人間のレビュー担当者を含め、エンド ユーザーにデプロイする前に生成 AI アプリケーションが徹底的にテストされたかどうかを評価する必要があります。
  • 安全性評価には包括的な範囲は含まれません。安全性評価は、潜在的なコンテンツやセキュリティ リスクに対するテストを強化する方法を提供できますが、アプリケーションのドメイン、ユース ケース、エンド ユーザーの種類に特化した手動のレッド チーミング操作を置き換えるために設計されていません。
  • サポートされているシナリオ:
    • 敵対的なシミュレーションの場合: 質問への回答、マルチターン チャット、要約、検索、テキストの書き換え、根拠のないコンテンツの生成。
    • 自動注釈の場合: 質問の回答とマルチターン チャット。
  • 現在、このサービスは、テキスト生成の場合にのみ英語ドメインで最適に使用されます。 マルチモデルのサポートを含む追加機能は、今後のリリースで検討される予定です。
  • 安全性評価で提供されるコンテンツ リスクの範囲は、制限された数の制限されたグループとトピックからサブサンプリングされます。
    • ヘイトと不公平のメトリックには、性別の人口統計要因 (男性、女性、非バイナリの人々など) と人種、先祖、民族、国籍 (黒人、メキシコ、ヨーロッパなど) の限られた数の限界グループに対する一部のカバレッジが含まれます。 性別や人種、先祖、民族、国籍に関するすべての疎外されたグループがカバーされているわけではありません。 ヘイトや不公平に関連するその他の人口統計学的要因には、現在、カバレッジがありません (障磊、セクシュアリティ、宗教など)。
    • 性的、暴力、自傷行為に関連するコンテンツのメトリックは、ヘイトや不公平よりも少ないこれらの害の暫定的な概念化に基づいています。 つまり、測定範囲や、測定がこれらの損害が発生しうるさまざまな方法をどの程度正確に表しているかについて、より控えめな主張しかできないということです。 これらのコンテンツ タイプのカバレッジには、性に関連する限られた数のトピック (性的暴力、関係、性的行為など)、暴力 (虐待、他の人の負傷、誘い込みなど)、自傷行為 (意図的な死、意図的な自傷、食事障害など) が含まれます。
  • Foundry の安全性評価では、プラグインや拡張性は現在許可されていません。
  • 品質を最新の状態に保ち、カバレッジを向上させるために、サービスの敵対的なシミュレーションと注釈機能の改善を定期的にリリースすることを目指します。

技術的な制限事項、運用上の要因、範囲

  • 大規模言語モデル (LLM) の分野は急速なペースで進化し続け、安全で信頼性の高い AI システムのデプロイを確保するために評価手法を継続的に改善する必要があります。 鋳造安全評価は、LLM評価の分野で革新を続けるというMicrosoftのコミットメントを反映しています。 生成 AI アプリケーションの安全性を評価するのに役立つ最適なツールを提供することを目指していますが、効果的な評価は継続的な作業であると認識しています。
  • Foundry の安全性評価のカスタマイズは現在制限されています。 ユーザーが入力生成 AI アプリケーション エンドポイントを提供することのみを想定しており、サービスはコンテンツ リスクのラベルが付いた静的データセットを出力します。
  • 最後に、このシステムはアクションやタスクを自動化せず、生成 AI アプリケーションの出力の評価のみを提供することに注意してください。これは、生成型 AI アプリケーションまたはシステムをエンド ユーザーの運用環境にデプロイする前に、人間の意思決定者がループ内で確認する必要があります。

システム パフォーマンス

システム パフォーマンスを向上するためのベスト プラクティス

  • ドメインを考慮して、一部のコンテンツを他のコンテンツよりも機密性の高い方法で扱う場合は、欠陥率を計算するためのしきい値を調整することを検討してください。
  • 自動安全性評価を使用する場合、コンテンツ リスクまたはその推論の重大度について、AI によって生成されたラベルにエラーが発生することがあります。 自動安全評価結果の人間のループ内検証を可能にする手動の人間フィードバック列があります。

鋳造プロセス安全評価の評価

評価方法

サポートされているすべてのコンテンツ リスクの種類について、0 から 7 の重大度スケールを使用する人間のラベラー間の近似一致率と、同じデータセットに対する 0 から 7 の重大度スケールを使用する安全性評価の自動注釈機能を比較することで、品質を内部的に確認しました。 リスク領域ごとに、人間のラベラーと自動アノテーターの両方が、500 件の英語の単一ターンテキスト、250 件の単一ターンテキストから画像生成、および250 件の画像からテキスト生成を含むマルチモーダルテキストをラベル付けしました。 人間のラベラーと自動アノテーターは、注釈ガイドラインのまったく同じバージョンを使用しませんでした。自動アノテーターのガイドラインは人間のガイドラインに由来する一方で、それ以来、さまざまな程度に分岐してきました(嫌悪と不公平のガイドラインが最も逸脱しています)。 これらのわずかな違いから中程度の違いにもかかわらず、近似一致の比較から一般的な傾向や分析情報を共有することは依然として有用であると考えています。 比較においては、2 レベルの許容範囲内(人間のラベルが自動アノテーターのラベルと厳密に一致するか、重大度が上下2レベル以内である場合)での一致を探し、さらに1レベルの許容範囲、0レベルの許容範囲での一致も確認しました。

評価結果

全体として、すべての許容範囲レベルで自傷行為や性的コンテンツのリスクに対して、おおよその一致率が高い結果が得られます。 暴力、憎悪、不公平に関しては、許容度のレベル全体でのおおよその一致率が低かった。 これらの結果の一部は、人間のラベラーと自動アノテーターの注釈ガイドラインコンテンツの相違の増加、および特定のガイドラインでのコンテンツの量と複雑さの増加によるものです。

比較は、若干異なる注釈ガイドラインを使用したエンティティ間で行われますが (したがって、標準的な人間モデルアグリーメント比較ではありません)、これらの比較は、これらの比較のパラメーターを考えると、Foundry の安全性評価から期待できる品質の見積もりを提供します。 具体的には、英語のサンプルのみを見たので、その結果は他の言語に一般化されない可能性があります。 また、各データセット サンプルは 1 ターンのみで構成されているため、複数ターンシナリオ (ユーザー クエリやシステム応答を含む前後の会話など) に対する評価結果の一般化可能性を検証するために、より多くの実験が必要になります。 これらの評価データセットで使用されるサンプルの種類は、人間のラベルと自動アノテーターの間のおおよその一致率にも大きく影響する可能性があります。サンプルのラベル付けが容易な場合 (たとえば、すべてのサンプルにコンテンツ リスクがない場合)、おおよその一致率が高くなる可能性があります。 評価のための人間のラベルの品質はまた、私たちの発見の一般化に影響を与える可能性があります。

使用のための Foundry の安全性評価の評価と統合

生成型 AI アプリケーションの測定と評価は、AI リスク管理に対する包括的なアプローチの重要な部分です。 Foundry の安全性評価は補完的であり、他の AI リスク管理プラクティスと並行して使用する必要があります。 ドメインの専門家と人間のループ内レビュー担当者は、生成型 AI アプリケーションの設計、開発、デプロイ サイクルで AI 支援の安全性評価を使用する場合に、適切な監視を提供する必要があります。 安全性評価の制限事項と使用目的を理解し、Foundry AI 支援安全評価によって生成された出力を分離して利用しないように注意する必要があります。

LLM の非決定論的な性質により、"非常に低い" または "低" とスコア付けされた暴力コンテンツの重大度が高いなど、誤った否定的または肯定的な結果が発生する可能性があります。さらに、評価結果は、対象ユーザーごとに異なる意味を持つ場合があります。 たとえば、安全性評価では、特定の暴力コンテンツがどの程度深刻であるかを人間のレビュー担当者の定義と一致しない可能性がある、激しいコンテンツの "低" 重大度のラベルが生成される場合があります。 Foundry ポータルでは、評価結果を表示する際に、人間のレビュー担当者によって承認されたインスタンスや不適切と判断されたインスタンスを示すために、「いいね」と「よくないね」のフィードバックを提供する列が設けられています。 評価を共有できる他のユーザーが意思決定のために結果を解釈する方法のコンテキストを検討し、各生成 AI アプリケーションが動作する環境内のリスクレベルに対する適切なレベルの調査を使用して評価結果を検証できます。

責任ある AI の詳細

Foundry の安全性評価の詳細を確認する