画像分析のためのマルチモーダルモデル

7 分

Tip

詳細については、「 テキストと画像 」タブを参照してください。

ますます、新しい AI モデルはマルチモーダルです。つまり、画像やテキストなど、複数の種類の入力データをサポートします。 マルチモーダルモデル は、テキスト、画像、オーディオ、ビデオなど、複数の種類のデータを同時に理解して操作できる AI モデルです。たとえば、マルチモーダルモデルでは、自然言語で画像を記述したり、写真に関する質問に回答したりできます。

マルチモーダルモデルは、次の一部として一般的に使用されます。

画像の理解によってユーザーワークフローが強化される AI アプリケーション
AI エージェント。視覚的な入力によって、エージェントがより適切な意思決定を行うのに役立ちます

その例は次のとおりです。

アップロードされたドキュメントとスクリーンショットを確認するエージェント
顧客から送信された写真を分析するサポートアプリ
ダイアグラムまたはグラフをプレーンな言語で説明する学習ツール

マルチモーダルモデルはテキストと画像の両方を受け入れるため、個別のビジョンパイプラインの必要性を減らし、エンドツーエンドのインテリジェントなエクスペリエンスを簡単に構築できます。

モデルが視覚理解と自然言語応答を組み合わせる機能は、 視覚対応 GPT モデル またはビジョン付き GPT と呼ばれます。ビジョン対応モデルは、柔軟で汎用の視覚的推論用に設計されています。視覚的な入力を分析し、自然言語で応答できるため、高度なコンピュータービジョンの専門知識を必要とせずにインテリジェントなアプリケーションを簡単に構築できます。

Microsoft Foundry のマルチモーダルモデル

Microsoft Foundry には、画像ベースの入力を受け入れる多くのモデルが含まれており、インテリジェントなビジョンベースのソリューションを作成できます。 Microsoft Foundry のマルチモーダルモデルを使用すると、アプリケーションとエージェントは、画像やビジュアルコンテンツを理解、分析、および推論できます。

たとえば、Foundry のビジョン対応 GPT モデルでは、次のことができます。

画像の内容を自然言語で記述する
画像内のオブジェクト、テキスト、シーンに関する質問に回答する
グラフ、スクリーンショット、ドキュメント、または写真から意味を抽出する
1 つのプロンプトで画像の理解とテキスト命令を組み合わせる

Foundry のモデルカタログには、次のような多くのマルチモーダルモデルが含まれています。

GPT-4.1 / GPT-4.1-mini / GPT-4.1-nano: これらの汎用マルチモーダル GPT モデルは、テキストと画像を一緒に処理できます。画像の説明や視覚的な質問への回答、ドキュメントとスクリーンショットの分析、グラフと図の解釈に一般的に使用されます。
GPT-5 シリーズ (GPT-5.1、GPT-5.2 など): Foundry で使用できる GPT-5 ファミリには、エンタープライズシナリオとエージェントシナリオ向けに設計された高度なマルチモーダルモデルが含まれています。これらのモデルでは、マルチモーダル入力 (テキストや画像を含む)、構造化された出力、ツールの使用、モダリティ間での大規模なコンテキスト推論がサポートされています。 GPT-5 シリーズモデルは、通常、運用グレードの AI エージェントと複雑なマルチモーダルアプリケーションで使用されます。

Foundry では、Anthropic などのプロバイダーや、テキストや画像の理解をサポートする他のプロバイダーからのモデルを含む、パートナーが提供するマルチモーダルモデルもモデルカタログでホストされます。

Foundry プレイグラウンドでの画像分析

注

Foundry ポータルには、 クラシック ユーザーインターフェイス (UI) と 新しい ユーザーインターフェイスがあります。

新しい Microsoft Foundry ポータルでは、モデルプレイグラウンドを使用して、デプロイされたモデルとチャットできます。視覚対応モデルの選択、画像のアップロード、プロンプトのテストを対話形式で行って、モデルが視覚的な情報をどのように解釈するかを理解できます。

たとえば、画像ファイルを添付し、マルチモーダルモデル (gpt-4.1 mini など) を取得して分析して説明することができます。

検証が完了すると、API を使用して同じ機能にプログラムでアクセスできるため、アプリケーションコードのテキストプロンプトと共に画像を送信できます。

画像分析に Azure OpenAI API を使用する

アプリケーションを開発するには、Foundry プレイグラウンドからコードに移行する必要があります。コードエディターでは、Foundry の OpenAI Responses API を使用してアプリケーションコードを記述できます。 OpenAI Responses API はエージェントアプリ向けに設計されており、ネイティブマルチモーダル入力 (画像を含む) をサポートしています。

概要:

1 つの要求にテキスト入力と画像入力を一緒に含めることができます
画像は、URL または base64 でエンコードされた画像データとして提供できます
モデルは両方の入力を同時に処理して応答を生成します

概念的には、プロンプト構造は次のようになります。

テキスト命令 (たとえば、 この画像に表示されるオブジェクト)
同じ要求に関連付けられた1つ以上の画像入力

このアプローチにより、開発者は、ユーザーが画像をアップロードし、リアルタイムでそれらに関する質問をするアプリケーションを構築できます。

Azure OpenAI Python SDK の使用

OpenAI API で Microsoft Foundry リソースを使用すると、ビジョン対応のモデルデプロイで Responses API を使用して、プロンプトでの画像の送信やテキスト応答の取得など、画像分析を実行できます。

Python SDK は、次を使用して Visual Studio Code ターミナル にインストールできます。

pip install openai

コードエディターでは、アプリケーションコードを含む 1 つの Python ファイルを作成できます。重要なのは、 Foundry リソースキーと エンドポイント、および デプロイされたモデルの名前が必要です。

注

Foundry にモデルをデプロイすると、 ベース 名または元の名前と、指定した元の デプロイ名 が含まれます。 Foundry は、デプロイされたモデル (ビジョンを備えた GPT クラスモデルなど) をホストし、エンドポイントを提供します。

コード例では、 クライアントを作成し、エンドポイントをポイントし、 モデルデプロイ名 (モデル に指定した名前) を MODEL_NAMEとして渡します。

import os
from openai import OpenAI

# Environment variables you set locally or in your app service:
FOUNDRY_KEY = "... your key ..."
ENDPOINT = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME = "your-model-deployment-name"  # e.g., "gpt-4.1-mini" deployed as "my-vision-deploy"

client = OpenAI(
    api_key=os.getenv("FOUNDRY_KEY"),
    base_url=os.getenv("ENDPOINT"),
)

image_url = ""

response = client.responses.create(
    model=os.getenv("MODEL_NAME"),  # your deployment name 
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "What is in this image? Provide 3 bullet points."},
                {"type": "input_image", "image_url": image_url}
            ],
        }
    ],
)

print(response.output_text)

クライアントアプリの例

ビジョン対応モデルを使用して OpenAI Python SDK を使用して画像を分析するカスタムアプリケーションを構築できます。たとえば、Safari で撮影された動物を識別できるアプリを構築するとします。写真をアップロードし、コードエディターで Python ファイルを作成できます。

画像分析に使用される画像のスクリーンショット。

その後、OpenAI API を使用して Foundry のモデルのエンドポイントに接続するアプリケーションコードを記述できます。

アプリケーションコードでは、イメージデータを読み込み、ユーザーから自然言語プロンプトを取得する必要があります。モデルに入力を送信するには、画像データとテキストデータの両方を含むマルチパートメッセージを作成する必要があります。モデルは、プロンプトのテキストと画像の両方に基づいて、適切な出力で応答できます。

次に、Foundry モデルと Azure OpenAI SDK を使用してイメージを生成する方法について説明します。

フィードバック

このページはお役に立ちましたか?

画像分析のためのマルチモーダル モデル

Microsoft Foundry のマルチモーダル モデル