音声を文字起こしする

3 分

音声の文字起こし ( 音声テキスト変換) では、オーディオコンテンツをモデルに送信する必要があります。これは、オーディオソース内の音声のテキストベースのトランスクリプトで応答します。

音声テキスト変換操作をサポートするモデルは次のとおりです。

gpt-4o-transcribe
gpt-4o-mini-transcribe
gpt-4o-transcribe-diarize

注

モデルの可用性はリージョンごとに異なります。 Microsoft Foundry ドキュメントの モデルのリージョン別可用性 テーブルを確認します。

音声テキスト変換モデルの使用

独自のアプリケーションで音声テキスト変換モデルを使用するには、 OpenAI SDK の AzureOpenAI クライアントを使用して Microsoft Foundry リソースのエンドポイントに接続し、オーディオファイルの内容を文字起こし用のモデルにアップロードします。

from openai import AzureOpenAI
from pathlib import Path

# Create an AzureOpenAI client
client = AzureOpenAI(
    azure_endpoint=YOUR_FOUNDRY_ENDPOINT,
    api_key=YOUR_FOUNDRY_KEY,
    api_version="2025-03-01-preview"
)

# Get the audio file
file_path = Path("speech.mp3")
audio_file = open(file_path, "rb")

# Use the model to transcribe the audio file
transcription = client.audio.transcriptions.create(
    model=YOUR_MODEL_DEPLOYMENT,
    file=audio_file,
    response_format="text"
)

print(transcription)

フィードバック

このページはお役に立ちましたか?