オーディオとビデオから情報を抽出する

完了

Tip

詳細については、「 テキストと画像 」タブを参照してください。

ビジネス情報は、オーディオファイルやビデオファイルなどのマルチメディア形式でますます見つけられます。 たとえば、企業は後で分析するために通話を記録することがよくあります。 ビデオ会議の増加は、多くの場合、記録された会議で有用な情報がキャプチャされることを意味します。 Azure Content Understanding では、オーディオとビデオの両方のデータ抽出と分析がサポートされています。

オーディオからの構造化データの抽出

Azure Content Understanding を使用して、オーディオ ファイルからの文字起こし、概要、その他の重要な分析情報を提供できます。

ボイス メールの概要を AI に設定するとします。 次のように、記録された各呼び出しから抽出する主要な分析情報のスキーマを定義できます。

  • Caller
  • メッセージの概要
  • 要求されたアクション
  • コールバック番号
  • 代替連絡先の詳細

次に、呼び出し元が次の音声メッセージを残したとします。

Hi, this is Ava from Contoso.

Just calling to follow up on our meeting last week.

I wanted to let you know that I've run the numbers and I think we can meet your price expectations.

Please call me back on 555-12345 or send me an e-mail at Ava@contoso.com and we'll discuss next steps.

Thanks, bye!

Azure Content Understanding を使用してオーディオ録音を分析し、スキーマを適用すると、次の結果が生成されます。

  • 呼び出し元: Contoso の Ava
  • メッセージの概要: Contoso の Ava が会議のフォローアップを呼び出し、価格の期待を満たすことができると述べました。 彼らは次のステップについて話し合うためにコールバックまたは電子メールを要求しました。
  • 要求されたアクション: コールバックまたは電子メールを送信して、次の手順について話し合います。
  • コールバック番号: 555-12345
  • 別の連絡先の詳細: Ava@contoso.com

Foundry ポータルでのオーディオの分析

ドキュメント分析と同様に、 新しい Foundry ポータルで Content Understanding を使用すると、コード内のワークフローを自動化する前に、アナライザーから期待されるフィールドが返されることを簡単に検証できます。

ポータルでは、次のことができます。

  • オーディオまたはビデオ アナライザーを選択し、メディア ファイルで実行します。
  • スキーマに基づいてトランスクリプト(オーディオ用)や抽出されたインサイトなどの出力を確認します。
  • ダウンストリーム システムでさらに処理するために返された JSON 結果 を表示します。

コンテンツ理解を使用して通話記録を分析する方法を見てみましょう。 呼び出し全体をリッスンするのではなく、事前構築済みのオーディオ アナライザーを実行して、オーディオから情報を抽出できます。 分析が完了すると、通話の書き込みトランスクリプトが表示されます。

Azure Content Understanding で分析された音声が表示された、新しい Foundry ポータルのスクリーンショット。

返された結果では、呼び出しから特定の情報を確認できます。 コンテンツ理解の他のアナライザーと同様に、結果は JSON 形式で処理されます。

オーディオが分析され、JSON が返される新しい Foundry ポータルのスクリーンショット。

ビデオから構造化データを抽出する

Azure Content Understanding では、ビデオ分析もサポートされています。 たとえば、録画されたビデオ会議を分析して、出席、場所、その他の情報の詳細を抽出できます。

まず、会議室のカメラから 1 つの画像を見てみましょう。 次のスキーマを定義したとします。

  • ロケーション
  • 対面参加者
  • リモート出席者
  • 出席者の合計数

Azure Content Understanding を使用して、会議室のカメラから画像を分析できます。

3 人のリモート出席者との通話中の会議室の人物の写真。

イメージにスキーマを適用した後、Azure Content Understanding は構造化データを返しました。

  • 場所: 会議室
  • 対人出席者: 1
  • リモート出席者: 3
  • 合計出席者数: 4

会議のビデオ録画用にスキーマに何を追加するかを検討します。 さまざまな時間間隔での出席数、通話中に話したユーザーの詳細、話し合いの概要、会議から割り当てられたアクションの一覧を含めることができます。

オーディオまたはビデオ アナライザーを使用したクライアント アプリケーションの構築

オーディオまたはビデオをプログラムで分析するには、 Content Understanding API を使用して軽量のクライアント アプリケーションを構築できます。

Python SDK を使用した例を見てみましょう。 次のコードを実行すると、事前構築済みのアナライザーを使用してオーディオ ファイルが分析されます。 事前構築済みのアナライザーは、 prebuilt-audioSearchとして識別されます。

import os
from azure.ai.contentunderstanding import ContentUnderstandingClient
from azure.core.credentials import AzureKeyCredential

# Endpoint and key for your Foundry resource
endpoint = os.environ["FOUNDRY_ENDPOINT"]  # e.g., "https://<resource>.services.ai.azure.com/"
key = os.environ["FOUNDRY_KEY"]

client = ContentUnderstandingClient(
    endpoint=endpoint,
    credential=AzureKeyCredential(key)
)

# Choose a prebuilt analyzer for audio
# (The documents module lists examples like prebuilt-audioSearch / prebuilt-videoSearch.)
analyzer_id = "prebuilt-audioSearch"

# Provide an input audio file (URL shown here; you can swap in your own accessible media URL)
inputs = [
    {"url": "https://<your-host>/samples/voicemail.wav"}
]

# Start analysis (asynchronous long-running operation)
poller = client.begin_analyze(analyzer_id=analyzer_id, inputs=inputs)

# Wait for completion (SDK polls under the hood)
result = poller.result()

# Inspect the structured output (JSON-like objects)
for content in result.contents:
    # Some analyzers may return a transcript and/or extracted fields depending on the analyzer and schema
    print("=== MARKDOWN / TRANSCRIPT (if provided) ===")
    print(getattr(content, "markdown", None))

    print("\n=== EXTRACTED FIELDS ===")
    print(getattr(content, "fields", None))

Microsoft Foundry のコンテンツを理解したオーディオとビデオの分析により、あらゆる形式でビジネス データの可能性を引き出すさまざまな機会が生まれます。 次に、自分で Content Understanding を試してみてください。