音声を合成する
音声合成 ( テキスト読み上げ) は、音声テキスト変換の逆です。 モデルにテキストを送信し、発声されたテキストのオーディオ ストリームを返します。
テキスト読み上げ操作をサポートするモデルは次のとおりです。
- gpt-4o-tts
- gpt-4o-mini-tts
注
モデルの可用性はリージョンごとに異なります。 Microsoft Foundry ドキュメントの モデルのリージョン別可用性 テーブルを確認します。
テキスト読み上げモデルの使用
音声テキスト変換モデルと同様に、OpenAI SDK の AzureOpenAI クライアントを使用して Microsoft Foundry リソースのエンドポイントに接続し、音声合成用のテキスト読み上げモデルにテキストをアップロードできます。
from openai import AzureOpenAI
from pathlib import Path
# Create an AzureOpenAI client
client = AzureOpenAI(
azure_endpoint=YOUR_FOUNDRY_ENDPOINT,
api_key=YOUR_FOUNDRY_KEY,
api_version="2025-03-01-preview"
)
# Path for audio output file
speech_file_path = Path("output_speech.wav")
# Generate speech and save to file
with client.audio.speech.with_streaming_response.create(
model=YOUR_MODEL_DEPLOYMENT,
voice="alloy",
input="This speech was AI-generated!",
instructions="Speak in an upbeat, excited tone.",
) as response:
response.stream_to_file(speech_file_path)
print(f"Speech generated and saved to {speech_file_path}")