透明度に関する注意: 画像分析

重要

英語以外の翻訳は便宜上のみ提供されています。 詳細なバージョンについては、このドキュメントのEN-USバージョンを参照してください。

透明度に関するメモとは

AI システムには、テクノロジだけでなく、それを使用するユーザー、影響を受けるユーザー、デプロイされる環境も含まれます。 目的に合ったシステムを作成するには、テクノロジのしくみ、その機能と制限事項、および最適なパフォーマンスを実現する方法を理解する必要があります。 Microsoftの透明性に関するメモは、AI テクノロジのしくみ、システム所有者がシステムのパフォーマンスと動作に影響を与える選択肢、およびテクノロジ、人、環境など、システム全体について考えることの重要性を理解するのに役立ちます。 独自のシステムを開発または展開するときに Transparency Notes を使用したり、システムを使用するユーザーやシステムの影響を受けるユーザーと共有したりできます。

Microsoftの透明性に関するメモは、AI 原則を実践するためのMicrosoftの広範な取り組みの一環です。 詳細については、Microsoft AI の原則を参照してください。

画像分析の基本

導入

組織は、デジタル ファイルや画像などのメディア資産を処理し、実用的な分析情報を抽出するためのソリューションを構築しています。 これらの分析情報には、ナレッジ マイニング、ビジネス プロセスの自動化、すべてのユーザーのコンテンツのアクセシビリティを向上させるために使用できる、オブジェクト、人物、画像の説明などの画像の視覚的特徴が含まれます。

Foundry Tools を使用してアクセスできる Image Analysis API には、事前トレーニング済みの機械学習モデルが用意されており、画像にラベルを割り当てて、何千もの定義済みのカテゴリに分類できます。 API は、オブジェクト、人物、成人用コンテンツ、自動生成された画像キャプションなど、画像から多くの視覚的特徴を抽出します。 カスタマイズ機能を使用すると、お客様は独自のデータを使用してビジョン モデルをすばやくトレーニングし、独自のカテゴリを定義できます。

主な用語

用語 定義
事前構築済みモデル Image Analysis が顧客に提供する機能を提供するモデル。 これらのモデルでは、追加のトレーニングは必要ありません。
基本モデル 基本モデルは、特定の種類のタスク (画像分類や物体検出など) のアーキテクチャを調整するために使用されるモデル アーキテクチャとトレーニング データの組み合わせです。 基本モデルはMicrosoftによって構築され、一般、食品、ランドマーク、小売、ロゴ、棚上の製品など、さまざまなドメインの転移学習プロセスの開始点として使用されます。
モデル トレーニング これは、モデルカスタマイズ機能を使用する際に、顧客が提供するラベル付き画像に基づいてモデルをトレーニングするプロセスを指します。
フューショット学習 通常、大量のトレーニング データが使用される従来の機械学習モデルのトレーニング方法とは異なり、少数のショット 学習では、少量のトレーニング データを使用してモデルをトレーニングし、カスタマイズ機能を使用するときに顧客が提供する新しいデータを認識して分類するために、基になるパターンを学習します。
転移学習 モデルカスタマイズ機能で顧客が提供したトレーニング データを使用して、顧客が解決しようとしている特定の問題に対処するためにベース モデルを再トレーニングします。 トレーニング データは、認識または検出するクラスと画像の種類の組み合わせである場合があります。
クラス トレーニング済みモデルには、入力イメージの分析時に割り当てられるクラスのセットがあります。 モデルのカスタマイズを使用してカスタム画像分類モデルを構築する場合は、モデルで出力するクラスのセットを定義し、各クラスにラベル付けされたトレーニング データを提供します。
クラス精度ペア クラス精度ペアは、クラスの名前と、クラス検出に関連付けられた信頼度スコアの float 値で構成される 2 つの値のセットです。 たとえば、クラスは、画像セットで表されるパインや梨のような果物の種類である場合があります。 クラス精度ペアは、画像内にクラスが存在する特定のクラスとその信頼度スコアです(例: パイナップル: 93.53%)。
画像の分類 この機能は、画像を入力として受け取り、画像レベルのプロパティであるクラス精度ペアのセットを出力します (画像内の場所は指定しません)。 たとえば、ペアはフルーツと非フルーツの場合があり、ほとんどの画像はそれぞれのクラスによって占有されます。
物体検出 この機能は、画像を入力として受け取り、画像内でそれらのクラスが検出された場所の境界ボックス座標も含むクラス精度ペアのセットを出力します。 たとえば、モデルは、画像内の車両が見つかった場所の境界ボックス座標を検出する場合があります。
境界ボックス 画像の左上隅を基準とした検出対象の左上隅のx,y画素座標、検出対象の幅を表す4つの数値のセット。
自信 画像分析操作では、抽出されたすべての出力について、0 ~ 1 の範囲の信頼度値が返されます。 信頼度の値は、タグの可能性の推定値を表します。
フィレンツェ フィレンツェは、Azure Vision in Foundry Tools イニシアチブの一部である新しい基盤 AI モデルの名前で、Vision サービスの v4.0 リリースの品質改善の多くを強化する何十億ものテキスト画像ペアでトレーニングされています。 何百万ものオブジェクトのカテゴリをすぐに認識でき、モデルカスタマイズサービスによって、少ないトレーニング画像で特定のパターンをより迅速かつ低コストでカスタマイズして認識することができます。
Planogram プラノグラムは、小売店の棚やディスプレイへの製品の配置を説明するドキュメントまたは図です。 小売業者や製造元が製品の配置を最適化して売上を増やすのに役立ちます。 製品認識シナリオでは、Planogram は JSON ドキュメントとして表されます。

機能

機能

重要

著名人の認識を除き、次の画像分析機能では、個々のユーザーを識別または検証することはできません。 顔の属性は予測も分類もせず、顔が検出されたときに顔テンプレート (顔の特徴を表す画像から生成される一意の数値のセット) は作成されません。 個人の認識は、顔認識機能や顔テンプレートの作成ではなく、ラベル付けの結果です。 著名人の認識は、承認された顧客のみが利用できる制限付きアクセス機能です。 著名人認識が使用されている場合、Image Analysis は Face API を呼び出し、検出された顔の顔テンプレートを生成し、それらを有名人の保存されたテンプレートと比較します (以下の「有名人、ランドマーク、ブランド認識」を参照)。

画像分析を使用して画像を処理できます。

  • 視覚的特徴にタグを付ける: 何千もの認識可能なオブジェクト、生き物、風景、アクションから、画像内の視覚的特徴を識別してタグ付けできます。 タグがあいまいな場合、またはコンテンツの ID が一般的な知識でない場合、API 応答はタグのコンテキストを明確にするヒントを提供します。 タグ付けは、画像のメインの件名 (フォアグラウンドの人物など) に限定されるわけではありません。 タグ付けには、設定 (屋内または屋外)、家具、ツール、植物、動物、アクセサリー、ガジェットを含めることもできます。

  • オブジェクトの検出: オブジェクト検出はタグ付けに似ていますが、API は適用された各タグの境界ボックス座標を返します。 たとえば、画像に犬、猫、人が含まれている場合、操作は画像内の各オブジェクトとその座標を一覧表示します。 この機能を使用して、イメージ内のオブジェクト間のリレーションシップを処理できます。 オブジェクト検出では、画像内に同じタグのインスタンスが複数存在する場合も認識できます。

  • 説明的なキャプションを生成します 画像キャプション アルゴリズムでは、著名人認識とランドマーク認識モデルを使用して、画像内に有名人やランドマークが存在する場合に、よりわかりやすいキャプションを生成します。 著名人の認識は、承認済みの顧客のみが利用できます。著名人の認識を使用する場合は 、ここで 適用してください。

    メモ

    "Caption" は V4.0 の "Describe" を置き換えます。これは、詳細とセマンティックな理解が豊富な改善された画像キャプション機能です。 高密度キャプションは、画像全体を記述するだけでなく、画像の最大 10 個の領域の文の説明を 1 つ生成することで、より詳細な情報を提供します。 高密度キャプションは、説明されている画像領域の境界ボックス座標も返します。

  • 画像内のコンテンツをモデレートする: 画像分析を使用して、画像内の成人向けコンテンツ、わいせつコンテンツ、およびゴーリー コンテンツを検出し、これらの分類の信頼度スコアを取得できます。 コンテンツに成人向け、わいせつ、またはゴーリーとしてフラグを設定するしきい値をスライディング スケールで設定して、ユーザーの好みに合わせて設定できます。

  • 関心領域とスマート 作物を取得する: 画像の内容を分析して、画像の最も重要な領域の座標を返したり、さまざまな縦横比で画像の AI によって提案された作物を取得したりできます。 顔検出は、画像内の重要な領域を特定するのに役立ちます。 検出には、ある顔を別の顔と区別したり、顔の属性を予測または分類したり、顔テンプレート (顔の特徴を表す画像から生成される一意の数値のセット) を作成したりする必要はありません。

  • 画像内のテキストの抽出: 画像分析には光学式文字認識 (OCR) があり、画像内の印刷されたテキストまたは手書きのテキストを検出し、テキストとテキスト座標を返すために使用できます。

  • 人と顔の検出: Azure Vision を使用して、画像内の顔と人物を検出できます。 API は、検出された顔と人物ごとに四角形の座標を返します。 顔の検証と識別は、Azure AI Face サービスによって提供されます。

  • Celebrity、ランドマーク、ブランドの認識: 画像分析を使用して、何千ものグローバルなロゴ、ランドマーク、有名人が含まれるプリセットデータベースから、画像やビデオ内の商用ブランド、人気のランドマーク、有名人を特定します。このデータベースは、IMDb、ウィキペディア、トップLinkedInインフルエンサーなど、一般的に要求されるデータ ソースに基づいて約100万人の顔を含みます。 たとえば、この機能を使用して、ソーシャル メディアで最も人気のあるブランドや、メディア製品の配置で最も普及しているブランドを見つけ出すことができます。 著名人認識は、承認された顧客に限定されます。

  • Customization: カスタマイズは、独自のカスタムイメージ識別システムを構築、展開、改善できるAzure Vision の機能です。 画像識別子は、その視覚的特性に従って画像にラベルを適用します。 各ラベルは、分類またはオブジェクトを表します。 カスタマイズを使用すると、独自のラベルを指定し、カスタム モデルをトレーニングして検出することができます。

  • 製品の理解: 特殊な画像分析モデルを使用して、小売店の棚に製品が存在することを検出します。 これを カスタマイズ と組み合わせてモデルをトレーニングし、店舗の棚にある特定の製品を識別できます。

  • 画像のステッチ: 部分的に重なる複数の画像を 1 つの大きな画像に結合します。 これは、製品認識シナリオで、小売棚全体の 1 つの画像を取得するために使用されます。

  • 画像の修正: 画像の透視歪みを元に戻します。 これは、棚の画像を分析しやすくするために、製品認識シナリオで使用されます。

  • プラノグラムマッチング: 製品認識結果をプラノグラム文書と比較して、どのスポットが製品によって占有され、どのスポットにギャップがあるかを確認します。

  • 背景の削除: 画像の背景を削除できます。 この操作では、検出された前景オブジェクトの画像を透明な背景で出力するか、検出された前景オブジェクトの不透明度を示すグレースケールアルファマット画像を出力できます。

  • 画像の取得: 画像の取得を使用すると、自然なフェーズ、質問、あいまいな説明を使用して、ユーザーが考える方法で画像を検索できます。 これにより、画像とテキスト クエリの ベクター化 が可能になります。 これにより、画像とテキストを多次元ベクトル空間の座標に変換できます。 ベクトルの類似性を使用して、セマンティックの近接性に基づく検索用語と画像を照合します。たとえば、画像の内容全体を検索したり、テキスト クエリや類似の画像に基づいて画像を推奨したりします。

  • ビデオの概要とフレーム ロケーター: 考え書きと同じ直感的な方法でビデオ コンテンツを検索して操作します。 追加のメタデータを必要とせずに、関連するコンテンツを見つけます。 現在、Vision Studio でのみ使用できます

ユースケース例

意図された用途

画像分析を使用する場合の例を次に示します。

  • 画像の検出可能性: 組織の内部共有スペースとソーシャル メディア プラットフォームにアップロードされた画像には、豊富な情報とメタデータが含まれています。 ただし、通常、この情報はコンピューターで読み取り可能ではなく、自動タグ付け、分類、検索には使用できません。 画像分析を使用すると、これらの画像の分析情報を分析、検索、取得できます。 たとえば、E コマース企業は、製品ライブラリを検索可能にしたり、ユーザーが生成したコンテンツを含む大規模な Web サイトで強力な検索やコンテンツの推奨事項を有効にしたりすることができます。
  • コンテンツ処理の自動化: 画像分析を使用して、画像内のビジュアル コンテンツの検出や、メディア分析パイプラインへのメタデータの構築などのタスクを自動化できます。 自動化により、コンテンツの作成と生成に関連する時間、労力、コストを削減できます。
  • 画像コンテンツモデレーション: Eコマース企業、ユーザーが生成したコンテンツパブリッシャー、オンラインゲームコミュニティ、およびソーシャルメディアプラットフォームは、画像コンテンツをモデレートする必要があります。 画像分析を使用すると、画像内の不適切なコンテンツ (成人向け、わいせつ、わいせつなコンテンツなど) に自動的にフラグを設定できます。 その後、返されたコンテンツ フラグとそれぞれの信頼度スコアを使用して、アプリケーション内のコンテンツを適切に調整できます。
  • ドメイン固有の識別: 開発者は、画像分析を使用して、ソーシャル メディアおよび写真アプリ内のドメイン固有のコンテンツを識別できます。 たとえば、画像内の有名なランドマークやブランド ロゴを識別して、ユーザーに適切な推奨事項を提供できます。
  • **Azure Vision を使用して、視覚障碍のあるユーザーや視覚障碍のあるユーザーを支援するソリューションを、人間が判読できる言語で画像コンテンツを検出して説明します。 このコンテキストでは、ユーザーが性別固有の説明 (たとえば、"ベンチに座っている男性と女性")、性別に依存しない説明 ("ベンチに座っている 2 人" など) を選択できるようにするパラメーターを有効にしました。
  • プライバシーを目的とした画像フィルタリング: Azure Vision を使用して画像内の顔や人物を検出できます。 顔検出とユーザー検出を使用して、プライバシーに関する考慮事項に関する機密情報が画像に含まれているかどうかを判断します。
  • 小売在庫管理: 製品認識 API を使用すると、小売棚の写真を分析し、そこに存在する製品を検出し、その写真をプラノグラム ドキュメントと比較できます。

その他のユース ケースを選択する際の考慮事項

  • 人間による監督を適用して特典の付与または拒否を行う: Azure Vision の出力を直接使用して特典を付与または拒否すると、情報が不正確または不完全な場合、エラーを引き起こす可能性があります。 ユーザーにとって公平で質の高い意思決定を確実にするために、Azure Vision で利用できる自動化と人間の監視を組み合わせます。
  • 顔の識別や検証には適していません: Azure Vision には顔認識機能がありません。 Azure Vision を使用している個人の認識は、実際の顔認識テクノロジではなく、ラベル付けの結果として発生します。 Azure AI Face を使用します。
  • 年齢や性別の分類には適: 年齢または性別の分類にAzure Vision を使用しないでください。
  • ドメイン固有の認識に対する追加の対策を考慮します。著名人の認識、ランドマーク認識、ブランド ロゴ認識などの事前構築済みの AI 機能は、有限の一連の有名人、ランドマーク、ブランドに対してトレーニングされます。 認識サービスでは、地域固有のすべての著名人、ランドマーク、またはブランドが認識されない場合があります。
  • 生体認証には適していません: Azure Vision は、虹彩認識、指紋識別、パスポートなどの生体認証マーカーまたは個人の識別と検証を目的とした他の形式の ID に基づいて個人の身元を検証するように設計またはテストされていません。
  • 医療診断Azure Vision を使用しないでください。これには、医療機器、臨床サポート、診断ツール、または疾患やその他の状態の診断、治療、軽減、治療、予防に使用されるその他の技術などの使用が含まれます。また、このような目的でこの機能を使用するライセンスまたは権利は、Microsoftによって付与されません。 この機能は、専門的な医療アドバイスや医療に関する意見、診断、治療、または医療専門家の臨床判断の代わりに実装または展開されることを意図したものではなく、そのように使用しないでください。 お客様は、医療診断のためのAzureビジョンまたはカスタマイズの使用について単独で責任を負います。
  • 法的および規制上の考慮事項: 組織は、Foundry Tools とソリューションを使用する際に、特定の法的および規制上の義務を評価する必要があります。これは、すべての業界またはシナリオでの使用には適していない可能性があります。 さらに、Foundry Tools またはソリューションは、該当するサービス利用規約および関連する行動規範で禁止されている方法で設計されておらず、使用されない場合があります。

画像分析のシステム パフォーマンスと制限事項

画像分析の精度

画像分析機能の精度は、AI によって生成された出力が、画像に存在する実際のビジュアル コンテンツにどの程度対応しているかを示す尺度です。 たとえば、イメージ タグ機能では、画像に存在するビジュアル コンテンツのタグを生成する必要があります。 精度を測定するために、地上真偽データで画像を評価し、AI モデルの出力を比較することができます。 地上の真実と AI で生成された結果を比較することで、イベントを 2 種類の正しい ("true") 結果と 2 種類の正しくない ("false") 結果に分類できます。

用語 定義
True Positive このシステム生成の出力は、実際データに正しく対応しています。 たとえば、犬の画像を犬として正しくタグ付けします。
真陰性 システムは、実測データにない結果を正しく生成しません。 たとえば、画像に犬が存在しない場合、システムでは画像に犬としてタグが付けられません。
偽陽性 システムによって、基準データに存在しない出力が誤って生成されます。 たとえば、システムは猫の画像に犬としてタグ付けします。
偽陰性 システムは、グラウンド トゥルース データに含まれる結果を生成できていません。 たとえば、システムは、画像に存在していた犬の画像にタグ付けに失敗します。

これらのイベント カテゴリは、精度と再現率を計算するために使用されます。

用語 定義
精度 抽出されたコンテンツの正確性の尺度。 複数のオブジェクトを含むイメージから、正しく抽出されたオブジェクトの数を確認します。
リコール 抽出された総合的な内容の尺度。 複数のオブジェクトを含む画像から、その正確性に関係なく、全体的に検出されたオブジェクトの数を確認できます。

精度と再現率の定義は、場合によっては、精度と再現率の両方を同時に最適化することが難しい可能性があることを意味します。 シナリオによっては、一方に優先順位を付ける必要がある場合があります。 たとえば、画像の検索結果を表示するなど、コンテンツ内の最も正確なタグまたはラベルのみを検出するソリューションを開発している場合は、精度を高めるために最適化します。 ただし、インデックス作成または内部カタログ化のために画像内のすべての可能なビジュアル コンテンツにタグを付けようとしている場合は、より高い再現率を得るために最適化します。

画像処理システムの所有者である場合は、システムを評価するために人間の審査によって収集、タグ付けがされた「グラウンド トゥルース評価データ」を収集することをお勧めします。 Vision サービスで提供される事前構築済みの AI モデルは、ユース ケースの要件を満たしていない可能性があります。 ユース ケースに固有の評価データセットを使用すると、事前構築済みの画像分析モデルがシナリオに適しているかどうかを十分な情報に基づいて判断できます。 事前構築済みのイメージ分析モデルがシナリオに適していない場合は、以下で説明するカスタマイズ機能を使用して独自のモデルを構築できます。 また、データを使用して、信頼度しきい値が目標の達成にどのように影響するかを判断することもできます。

地上信頼度ラベルをシステムの出力と比較して、全体的な精度とエラー率を確立できます。 エラー分布は、シナリオに適したしきい値を設定するのに役立ちます。 実績評価データには、パフォーマンスの違いを理解し、是正措置を取ることができるように、代表的な画像の適切なサンプリングが含まれている必要があります。 評価の結果に基づいて、精度と再現率のトレードオフが目標を満たすまでしきい値を繰り返し調整できます。

シナリオに基づくシステム パフォーマンスへの影響

システムのパフォーマンスへの影響は、使用方法によって異なる場合があります。 たとえば、信頼度の値を使用してカスタムしきい値を調整し、コンテンツとシナリオを処理できます。 信頼度の値によっては、コンテンツがストレートスルー処理のためにルーティングされたり、人間がループ内のプロセスに転送したりする場合があります。 結果の測定値は、次の例に示すように、精度と再現率メトリックの観点からシナリオ固有の精度を決定します。

  • フォト共有アプリ: Azure Vision を使用して、アプリケーション ユーザーが共有および保存する画像のタグを自動的に生成できます。 アプリ ユーザーはこの機能を利用して、他のユーザーが共有している特定の写真を検索します。 このユース ケースでは、タグを誤って抽出するコストによってアプリ ユーザーのクエリ結果が正しくないため、開発者は高精度の結果を好む場合があります。
  • 画像処理: 保険およびクレーム処理アプリケーションでは、関連性の高い情報を見逃したくないので、抽出を最大化するために高いリコールを使用することをお選びになる場合があります。 このシナリオでは、人間の校閲者が間違ったタグや不適切なタグにフラグを付ける可能性があります。

イメージの取得に関するその他の制限事項

  • 関連性: 画像の取得は、ユーザーのイメージ セットに関連する一致がない場合でも、常にユーザー クエリに結果を返します。 たとえば、ユーザーが人の画像のみを含む画像セットで "裏庭で遊んでいる犬" を検索すると、システムは検索クエリに最も近いものを返します。 この場合、人の画像が返される可能性があります。 これは、感情や性別など、画像に対応しない抽象的な概念に対してクエリを実行する場合にも発生する可能性があります。

  • ステレオタイピング:モデルは、名前をそれらの名前と人々のステレオタイプな性別と民族性に関連付ける方法を学び、私立市民の名前を有名人のイメージに関連付ける可能性があります。

  • 最近性: モデルは実際のイベントに関するいくつかの情報を含むデータセットでトレーニングされていますが、モデルのトレーニング後に発生したイベントに関してモデルにクエリを実行すると、うまく機能しません。

  • 意図的な誤用: 非常に迷惑なテキストと組み合わされた非常に邪魔な画像が画像の取得にアップロードされると、結果の一部として有害で不快なコンテンツが返される可能性があります。 この意図しない結果を軽減するには、システムへのアクセスを制御し、適切な使用についてそれを使用するユーザーを教育することをお勧めします。

  • モーションについて: ビデオの概要とフレーム ロケーターには、ビデオ内のモーションとアクションを正確に理解する機能が限られています。 "写真を撮っている人" や "落ちる人" などのアクションをクエリすると、不正確な結果が得られます。

  • 複雑なクエリ構文: 前置詞などの複雑な構文を含むクエリ (たとえば、"はしご 上の 人物"、"はし ごのない人 " など) は、不正確な結果を生み出す可能性があります。

システム パフォーマンスを向上するためのベスト プラクティス

次のガイドラインは、Azure Vision API のパフォーマンスの理解と向上に役立ちます。

  • Image Analysis では、各バージョンのファイル 要件 を満たすイメージがサポートされます。
  • Azure Vision は堅牢ですが、解像度、光の露出、コントラスト、画質などの要因が結果の精度に影響する可能性があります。 製品の仕様を参照し、画像でテストして、状況に合った状態を検証します。
  • Azure Vision システムを大規模に展開またはロールアウトする前に、システム所有者は、システムが使用されるコンテキストと、システムと対話するユーザーとの間で評価フェーズを実施する必要があります。 展開前の評価は、システムの精度を確保するのに役立ち、必要に応じてシステムの精度を向上させるためのアクションを実行するのに役立ちます。
  • システム出力に基づいて意思決定を行うユーザー向けのフィードバック チャネルを構築します。 Azure Vision の機能と既存の顧客の音声チャネルからのフィードバックに依存するユーザーの満足度データを含めます。 フィードバックを使用してシステムを微調整し、精度を向上させます。
  • AI は、予測された各出力に対して信頼度スコアを提供します。 信頼度スコアは、予測の精度をパーセンテージで表します。 たとえば、システムが写真に自動的にキャプションを付けるために、信頼度の最小しきい値を設定できます。 生成されたキャプションの信頼度スコアがしきい値を下回っている場合は、さらなるレビューのために転送する必要があります。

画像解析の評価

評価方法

さまざまなパブリック、内部、および顧客から提供された画像データセットを使用して、各Azure Vision モデルの精度を評価します。 これらの画像データセットには、さまざまなビジュアル コンテンツと幅広い品質の画像が含まれており、モデルがさまざまなケースで評価されるようにします。 さまざまなデータセットの精度、再現率、F1 スコアを計算します。 各モデルを内部ベンチマークとパブリック ベンチマークと比較し、以前のバージョンのモデルと比較します。

公平性に関する考慮事項

サービスの品質が低下するリスクがある人口統計グループを特定して優先順位を付け、既存のステレオタイプを永続させたり、軽蔑したり、特定のグループを消去したりする可能性のある出力をモデルが生成する可能性があるインスタンスを特定するために、すべてのAzure Vision AI モデルを厳密にテストしました。 私たちのモデルは、人種、性別、年齢、文化に関係なく、画像入力に描かれているすべての人々に適していることがわかりました。

まれなケースでは、画像タグ付けモデルと画像キャプションモデルが、入力画像に表示される人の性別と年齢のラベルを誤って返し、公平性エラーを引き起こすことがあります。 これらのインスタンスは非常にまれであり、新しいモデルでこのようなエラーが発生する可能性が低いように、モデルの改善を続けます。 性別と年齢の分類には、Azure Vision モデルを使用しないことをお勧めします。

お客様には、公平性のエラーを報告し、Azure ポータルを通じてこれらの問題に関するフィードバックを共有して、すべてのユーザーに対してモデルが適切に機能することを目指す改善点を特定し続けられるようにお客様にお願いします。 カスタマイズ機能を使用して独自のモデルをトレーニングする顧客は、公平性を確保するために追加のテストを実行する必要があります。

使用する画像分析の評価と統合

Microsoftは、Foundry Tools で Azure Vision を使用するソリューションを責任を持って開発および展開できるように支援します。 私たちは、AI システムの公平性、信頼性と安全性、プライバシーとセキュリティ、包括性、透明性、人間のアカウンタビリティを考慮して、個人の機関と品位を維持するための原則的なアプローチを取っています。 これらの考慮事項は、責任ある AI の開発に対する Microsoft のコミットメントに沿っています。

統合と責任ある使用に関する一般的なガイドライン

このセクションでは、Azureビジョンと、このテクノロジを責任を持って使用するための重要な考慮事項について説明します。 Azure Vision の責任あるデプロイと使用に関する一般的な推奨事項を次に示します。 コンテキストでは、特定のデプロイ シナリオのニーズに応じて、独自の軽減策に優先順位を付け、含める必要がある場合があります。 ただし、一般に、お客様を支援するための出発点として、次のベスト プラクティスが提供されます。

  • 何ができるかを理解 する: 機能と制限事項を理解するために使用している AI システムの可能性を完全に評価します。 実際の状態とデータを使用して十分にテストすることで、シナリオとコンテキストでどのように動作するかを理解します。
  • プライバシーに対する個人の権利を尊重する : 適法かつ正当な目的でのみ、個人からデータと情報を収集します。 使用に同意したデータと情報のみを使用し、同意が与えられた目的でのみ使用します。
  • 法的レビュー: 特に機密性の高いアプリケーションやリスクの高いアプリケーションでソリューションを使用する場合は、ソリューションをレビューするための適切な独立した法的アドバイスを得ます。 どのような制限内で作業する必要があるかを理解し、将来発生する可能性のある問題を解決する責任を理解します。
  • 人間参加型 (ヒューマン イン ザ ループ): 人間参加型を維持し、人間による監督を継続的に検討すべきパターン領域として含めます。 これは、Azureビジョンの継続的な人間の監視を確保し、意思決定における人間の役割を維持することを意味します。 損害を防ぐために、ソリューションに人間がリアルタイムで介入できることを確認します。 これにより、Azure Vision が期待どおりに動作しない状況を管理できます。
  • セキュリティ: ソリューションが安全であり、コンテンツの整合性を維持し、不正アクセスを防ぐための適切な制御があることを確認します。
  • ブロックリストまたは許可リスト: Azure Vision タグ機能を使用してすべてのタグを有効にする代わりに、ユース ケースに最も適した特定のタグに注目します。
  • 特定の入力を制限してユーザーの操作を構造化する: 望ましくないコンテンツのユーザー テキスト入力を監視することをお勧めします。 これには、ヘイトスピーチ、人種的または民族的なスラー、不適切な言葉やフレーズが含まれる場合があります。 望ましくないコンテンツの正確な定義は、シナリオによって異なります。時間の経過と同時に変化する可能性があります。
  • ユーザー アクセスの制御: 顧客とユーザーにサインインを要求することを検討します。これにより、ビジネスが誤用インシデントが発生した場合に対応しやすくなります。 可能であれば、誤用をより困難にするために、製品をペイウォールの背後に配置することを検討してください。
  • 社会バイアスを制限する: 特定のユース ケースのテストを実行して、社会のバイアスを制限することをお勧めします。
  • ユーザーのフィードバックとレポート チャネルを確立する: システムの影響を受けるユーザーや傍観者から質問や懸念事項を収集するチャネルを作成することをお勧めします。 出力の有用性と精度に関するフィードバックを招待し、問題のある、攻撃的、偏った、不適切な出力を報告するための明確なパスをユーザーに提供します。 可能なメカニズムには、UI へのフィードバック機能の構築や、パブリック フィードバック用の電子メール アドレスの公開などがあります。

責任ある AI コンテンツ のフィルター処理

Vision Studio には、コア モデルと共に機能するコンテンツ管理システムが含まれており、画像取得とビデオの概要とフレーム ロケーターのデモのコンテンツをフィルター処理します。 このシステムは、誤用の検出を目的とした分類モデルのアンサンブルを使用して、入力プロンプトとメディア コンテンツの両方を実行することによって機能します。 システムが有害なコンテンツを識別すると、プロンプトが不適切と見なされ、責任ある AI サービスによってフィルター処理されたことを示すエラー メッセージが表示されます。

サポートを通じて、コンテンツ フィルタリング システムに関するフィードバックを報告できます。

アプリケーションでリスクを適切に軽減するには、潜在的なすべての損害を慎重に評価し、「 透明性に 関するメモ」のガイダンスに従い、必要に応じてシナリオ固有の軽減策を追加する必要があります。

プライバシーを維持するための推奨事項

プライバシーアプローチを成功させ、個人に情報を提供し、プライバシーを維持するための制御と保護を提供します。

  • サービスが、正常性関連のデータを組み込むように設計されたソリューションの一部である場合は、そのデータを記録するかどうかとその方法について慎重に検討してください。 該当する州および連邦政府のプライバシーと健康に関する規制に従います。
  • プライバシー マネージャーは、抽出された画像のメタデータと分析情報、および基になるイメージに使用する保持ポリシーを慎重に検討する必要があります。 アイテム保持ポリシーには、アプリケーションの使用目的が反映されている必要があります。
  • 影響を受ける利害関係者またはデータ所有者からの明示的な同意なしにデータを共有せず、共有されるデータの量を最小限に抑えます。

画像分析でのカスタマイズ

画像分析のカスタマイズ機能には、注意すべきその他の考慮事項があります。 カスタマイズでは、機械学習を使用して画像を分析します。 問題の特性が含まれている画像と不足している画像を送信します。 自分で画像にラベルを付けます。 次に、サービスはこのデータを使用してモデルをトレーニングし、トレーニング データセットから一連の画像をテストすることによってモデルの精度を計算します。 モデルをトレーニングしたら、モデルをテスト、再トレーニングし、最終的に画像認識アプリケーションまたはソリューションで使用して、新しい画像の予測を推測できます。

カスタム画像分類は、 1 つまたは複数のラベルを画像に適用します。 カスタム オブジェクト検出 は、検出されたオブジェクトに適用されたラベルが見つかる画像内の座標を返します。 どちらの機能も、 https://portal.vision.cognitive.azure.comの Vision Studio で API、SDK、およびコードなしのエクスペリエンスを通じて提供されます。

カスタマイズでは、次の高度な機能を使用して、カスタム ビジョン モデルの作成と使用をサポートしています。 これらは、使用するモデルを準備するために完了する 2 つの主要なアクティビティを表します。

  • データラベル付け: モデルで分類する必要がある画像のクラスを使用してトレーニング画像に注釈を付けるプロセスです。 物体検出の場合は、トレーニング画像に、画像内で検出されるオブジェクトを囲む境界ボックスで注釈を付けます。 お客様は、Azure Machine Labeling Studio でデータにラベルを付けたり、COCO ファイル形式でラベル付けされたデータをインポートしたりできます。 トレーニング データにラベルが付いたら、Vision Studio、API、または SDK を使用してモデルのトレーニングに使用できます。
  • モデル トレーニング: 基本モデルと転送学習を使用して、顧客が提供する画像と対応するクラス用に最適化されたモデルをトレーニングします。 以前のモデルカスタマイズ技術では、高い精度を実現するために大量のトレーニング データが必要でした。 新しいモデルのカスタマイズにより、同じまたはより高い精度/パフォーマンスで新しいデータを認識して分類することを学習するためにモデルをトレーニングするために必要なデータ量が少なくなります。 これらのカスタマイズ機能は大規模な基本モデルを使用しており、広範なデータセットでトレーニングされているため、モデルはラベルごとに 1 つの画像でトレーニングできます。 モデルは、ラベルごとに少ないイメージでトレーニングを行うと、引き続き改善できます。 少数の学習では、広範なデータ収集とラベル付けを必要とせずにカスタマイズするためのパスが提供されます。 カスタマイズにより、提供されるトレーニング データの分割に基づいてモデルのパフォーマンスを概算するための精度メトリックが提供されます。 ラベルごとにトレーニングする画像が少ない場合は、追加の評価データセットを使用してモデルの精度をテストすることをお勧めします。

モデルを使用する準備ができたら、処理用の画像を送信してモデル予測を行うことができます。 カスタム モデルで予測を実行すると、予測結果を受け取るために予想よりも長い待機時間が発生する可能性があることに注意してください。 Microsoftは近い将来、待機時間の改善に取り組んでいます。 現時点では、ビジネス クリティカルな環境にカスタム モデルを使用することはお勧めしません。 また、カスタマイズを使用して構築された分類子またはオブジェクト検出モデルの品質は、モデルのトレーニング時に提供するラベル付きデータの品質と多様性によって異なります。 品質は、データセット全体がクラス間でどの程度バランスが取れているかによっても異なります。 モデルの品質に満足したら、Cognitive Service for Vision でモデルをデプロイしてホストできます。

重要

カスタマイズは、 アクセシビリティの目的で代替テキストとして使用できる画像の人間が判読できる説明を生成するために、何百ものクラスとタグを含む大規模な画像セットのカスタム モデルのトレーニングには適していません。 画像分析ベースのモデルにはこれらの機能があり、カスタマイズの代わりに使用する必要があります。 ご注意ください。カスタマイズは、画像内の個人を認識または識別する目的で設計またはテストされていないため、顔認識には適していませんAzure AI Face をご利用ください。個人の認識は、お客様によるラベル付けの結果であり、当社の顔認識機能や顔テンプレートの作成(顔の特徴を表す画像から生成される一意の数値集合)によるものではありません。

ユースケース例

意図された用途

次のシナリオでは、Azure Vision の機能であるカスタマイズを使用できます。

  • 自動ビジュアル アラート: ビデオ ストリームを監視し、特定の状況が検出されたときにアラートをトリガーする機能。 たとえば、蒸気が検出された場合や、川に泡が発生したとき、または動物が存在する場合にアラートが必要な場合があります。
  • 手動検査の効率向上: 小売業における製品認識を使用することにより、あなたや従業員がユニークな SKU を数えたり、棚に必要なすべての SKU が揃っているかを確認したりするのに費やす時間を短縮できます。
  • 検査範囲の拡大: 欠陥を検出する場合、製造ラインから出てくるすべての項目を人間がレビューできるわけではありません。 代わりに、カスタマイズを使用して、手動で検査できない項目のセットをカバーしたり、手動で検査する項目を通知したりできます。
  • オブジェクトの検出可能性を向上させる: メタデータを使用して画像にラベルを付けると、後で見つけやすくなります。 たとえば、製品カタログや、フィルター処理に関心があるその他のビジュアル機能に基づいて画像にタグを付ける場合があります。 カスタマイズを使用すると、インジェスト時にメタデータで画像にラベルを付けることができます。

カスタマイズ機能のパフォーマンス

モデルのトレーニングが完了したら、Studio https://portal.vision.cognitive.azure.comでプロジェクトのパフォーマンスの見積もりを確認できます。 カスタマイズでは、トレーニング用に送信した画像またはユーザーが提供した評価データセットのサブセットを使用して、平均精度、平均精度、精度上位 1、精度上位 5 を推定します。 画像分類器とオブジェクト検出器の有効性に関するこれら 3 つの測定値は、次のように定義されます。

平均精度 は、識別された分類が正しかった割合です。 たとえば、モデルで 100 個の画像が犬として識別され、そのうちの 99 個が実際に犬であった場合、精度は 99% になります。

平均平均精度 (mAP) は、平均精度 (AP) の平均値です。 AP は、精度/再現率曲線の下の領域です (各予測の再現率に対してプロットされた精度)。

  • 平均平均精度 @ 30: IoU が 30 の場合、すべてのタグのオブジェクト検出器のパフォーマンス。
  • 平均平均精度 @ 50: IoU が 50 の場合、すべてのタグのオブジェクト検出器のパフォーマンス。
  • 平均平均精度 @ 75: IoU が 75 の場合、すべてのタグのオブジェクト検出器のパフォーマンス。

精度 は、分類モデルを評価するための 1 つのメトリックです。 非公式には、 精度 は、モデルが正しく得た予測の割合です。 正式には、精度には次の定義があります。

  • 精度 – 上位 1 は従来の精度であり、モデル予測 (最も高い確率を持つもの) は正確に予想される回答である必要があります。 予測されたラベルが 1 つのターゲット ラベルと一致する例の割合を測定します。
  • 精度 – 上位 5 は、モデルの上位 5 つの最も高い確率の回答のいずれかが予想される回答と一致します。 5 つの予測のいずれかがターゲット ラベルと一致する場合、分類は正しいと見なされます。

カスタマイズ モデルの精度を向上させるためのベスト プラクティス

カスタマイズ モデルを構築するプロセスは反復的です。 モデルをトレーニングするたびに、独自の更新されたパフォーマンス メトリックを使用して新しいイテレーション/評価を作成します。 Vision Studio では、プロジェクトの詳細ですべての評価を表示できます。 モデルのパフォーマンスを向上させるには、モデルのトレーニング時に提供するラベル付きデータの多様性を拡張します。 品質は、データセット全体がクラス間でどの程度バランスが取れているかによっても異なります。

モデルでは、画像に共通する任意の特性に基づいて予測を行う方法を学習できます。 追加のデータを使用して、モデルの評価をテストすることをお勧めします。 モデルをテストした後、モデルを発行して推論に使用できます。

モデルのパフォーマンスに基づいて、モデルがユース ケースとビジネス ニーズに適しているかどうかを判断する必要があります。 次に、実行する可能性があるアプローチを示します。 分離された環境にカスタマイズ モデルをデプロイし、ユース ケースに対するモデルのパフォーマンスをテストした後、予測を使用して、目的のパフォーマンス レベルに達するまでモデルをさらにトレーニングできます。

責任ある AI の詳細

画像分析の詳細

次の手順