画像分析のためのマルチモーダル モデル

完了

Tip

詳細については、「 テキストと画像 」タブを参照してください。

ますます、新しい AI モデルはマルチモーダルです。 つまり、画像やテキストなど、複数の種類の入力データをサポートします。 マルチモーダル モデル は、テキスト、画像、オーディオ、ビデオなど、複数の種類のデータを同時に理解して操作できる AI モデルです。 たとえば、マルチモーダル モデルでは、自然言語で画像を記述したり、写真に関する質問に回答したりできます。

マルチモーダル モデルは、次の一部として一般的に使用されます。

  • 画像の理解によってユーザー ワークフローが強化される AI アプリケーション
  • AI エージェント。視覚的な入力によって、エージェントがより適切な意思決定を行うのに役立ちます

その例は次のとおりです。

  • アップロードされたドキュメントとスクリーンショットを確認するエージェント
  • 顧客から送信された写真を分析するサポート アプリ
  • ダイアグラムまたはグラフをプレーンな言語で説明する学習ツール

マルチモーダル モデルはテキストと画像の両方を受け入れるため、個別のビジョン パイプラインの必要性を減らし、エンドツーエンドのインテリジェントなエクスペリエンスを簡単に構築できます。

モデルが視覚理解と自然言語応答を組み合わせる機能は、 視覚対応 GPT モデル またはビジョン付き GPT と呼ばれます。 ビジョン対応モデルは、柔軟で汎用の視覚的推論用に設計されています。 視覚的な入力を分析し、自然言語で応答できるため、高度なコンピューター ビジョンの専門知識を必要とせずにインテリジェントなアプリケーションを簡単に構築できます。

Microsoft Foundry のマルチモーダル モデル

Microsoft Foundry には、画像ベースの入力を受け入れる多くのモデルが含まれており、インテリジェントなビジョンベースのソリューションを作成できます。 Microsoft Foundry のマルチモーダル モデルを使用すると、アプリケーションとエージェントは、画像やビジュアル コンテンツを理解、分析、および推論できます。

たとえば、Foundry のビジョン対応 GPT モデルでは、次のことができます。

  • 画像の内容を自然言語で記述する
  • 画像内のオブジェクト、テキスト、シーンに関する質問に回答する
  • グラフ、スクリーンショット、ドキュメント、または写真から意味を抽出する
  • 1 つのプロンプトで画像の理解とテキスト命令を組み合わせる

Foundry のモデル カタログには、次のような多くのマルチモーダル モデルが含まれています。

  • GPT-4.1 / GPT-4.1-mini / GPT-4.1-nano: これらの汎用マルチモーダル GPT モデルは、テキストと画像を一緒に処理できます。 画像の説明や視覚的な質問への回答、ドキュメントとスクリーンショットの分析、グラフと図の解釈に一般的に使用されます。

  • GPT-5 シリーズ (GPT-5.1、GPT-5.2 など): Foundry で使用できる GPT-5 ファミリには、エンタープライズシナリオとエージェントシナリオ向けに設計された高度なマルチモーダル モデルが含まれています。 これらのモデルでは、マルチモーダル入力 (テキストや画像を含む)、構造化された出力、ツールの使用、モダリティ間での大規模なコンテキスト推論がサポートされています。 GPT-5 シリーズ モデルは、通常、運用グレードの AI エージェントと複雑なマルチモーダル アプリケーションで使用されます。

Foundry では、Anthropic などのプロバイダーや、テキストや画像の理解をサポートする他のプロバイダーからのモデルを含む、パートナーが提供するマルチモーダル モデルもモデル カタログでホストされます。

Foundry プレイグラウンドでの画像分析

Foundry ポータルには、 クラシック ユーザー インターフェイス (UI) と 新しい ユーザー インターフェイスがあります。

新しい Microsoft Foundry ポータルでは、モデルプレイグラウンドを使用して、デプロイされたモデルとチャットできます。 視覚対応モデルの選択、画像のアップロード、プロンプトのテストを対話形式で行って、モデルが視覚的な情報をどのように解釈するかを理解できます。

gpt-4.1 ミニ モデルがデプロイされ、ユーザーが動物の画像をアップロードしている Foundry Playground のスクリーンショット。

たとえば、画像ファイルを添付し、マルチモーダル モデル (gpt-4.1 mini など) を取得して分析して説明することができます。

Foundry Playground のスクリーンショット。画像内の内容を説明するようにモデルに求めるプロンプトと、説明付きの応答が表示されています。

検証が完了すると、API を使用して同じ機能にプログラムでアクセスできるため、アプリケーション コードのテキスト プロンプトと共に画像を送信できます。

画像分析に Azure OpenAI API を使用する

アプリケーションを開発するには、Foundry プレイグラウンドからコードに移行する必要があります。 コード エディターでは、Foundry の OpenAI Responses API を使用してアプリケーション コードを記述できます。 OpenAI Responses API はエージェント アプリ向けに設計されており、ネイティブマルチモーダル入力 (画像を含む) をサポートしています。

概要:

  • 1 つの要求にテキスト入力と画像入力を一緒に含めることができます
  • 画像は、URL または base64 でエンコードされた画像データとして提供できます
  • モデルは両方の入力を同時に処理して応答を生成します

概念的には、プロンプト構造は次のようになります。

  • テキスト命令 (たとえば、 この画像に表示されるオブジェクト)
  • 同じ要求に関連付けられた1つ以上の画像入力

このアプローチにより、開発者は、ユーザーが画像をアップロードし、リアルタイムでそれらに関する質問をするアプリケーションを構築できます。

Azure OpenAI Python SDK の使用

OpenAI API で Microsoft Foundry リソースを使用すると、ビジョン対応のモデルデプロイで Responses API を使用して、プロンプトでの画像の送信やテキスト応答の取得など、画像分析を実行できます。

Python SDK は、次を使用して Visual Studio Code ターミナル にインストールできます。

pip install openai

コード エディターでは、アプリケーション コードを含む 1 つの Python ファイルを作成できます。 重要なのは、 Foundry リソースキーエンドポイント、および デプロイされたモデルの名前が必要です。

Foundry にモデルをデプロイすると、 ベース 名または の名前と、指定した元の デプロイ名 が含まれます。 Foundry は、デプロイされたモデル (ビジョンを備えた GPT クラス モデルなど) をホストし、エンドポイントを提供します。

コード例では、 クライアントを作成し、エンドポイントをポイントし、 モデル デプロイ名 (モデル に指定した名前) を MODEL_NAMEとして渡します。

import os
from openai import OpenAI

# Environment variables you set locally or in your app service:
FOUNDRY_KEY = "... your key ..."
ENDPOINT = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME = "your-model-deployment-name"  # e.g., "gpt-4.1-mini" deployed as "my-vision-deploy"

client = OpenAI(
    api_key=os.getenv("FOUNDRY_KEY"),
    base_url=os.getenv("ENDPOINT"),
)

image_url = ""

response = client.responses.create(
    model=os.getenv("MODEL_NAME"),  # your deployment name 
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "What is in this image? Provide 3 bullet points."},
                {"type": "input_image", "image_url": image_url}
            ],
        }
    ],
)

print(response.output_text)

クライアント アプリの例

ビジョン対応モデルを使用して OpenAI Python SDK を使用して画像を分析するカスタム アプリケーションを構築できます。 たとえば、Safari で撮影された動物を識別できるアプリを構築するとします。 写真をアップロードし、コード エディターで Python ファイルを作成できます。

画像分析に使用される画像のスクリーンショット。

その後、OpenAI API を使用して Foundry のモデルのエンドポイントに接続するアプリケーション コードを記述できます。

イメージ分析用のアプリケーション コードを含む Python ファイルを含む Visual Studio Code のスクリーンショット。

アプリケーション コードでは、イメージ データを読み込み、ユーザーから自然言語プロンプトを取得する必要があります。 モデルに入力を送信するには、画像データとテキスト データの両方を含むマルチパート メッセージを作成する必要があります。 モデルは、プロンプトのテキストと画像の両方に基づいて、適切な出力で応答できます。

画像分析の結果を含む Visual Studio Code のスクリーンショット。

次に、Foundry モデルと Azure OpenAI SDK を使用してイメージを生成する方法について説明します。