Synthèse vocale

Effectué

Conseil

Pour plus d’informations, consultez l’onglet Texte et images !

La synthèse vocale, ou texte parlé, est l’inverse de la transcription de la parole. Il implique l’envoi de texte à un modèle, qui retourne un flux audio du texte vocalisé.

Les modèles qui prennent en charge les opérations de synthèse vocale sont les suivants :

  • gpt-4o-tts
  • gpt-4o-mini-tts

Note

La disponibilité du modèle varie selon les régions. Passez en revue la table de disponibilité régionale du modèle dans la documentation Microsoft Foundry.

Utilisation d’un modèle de synthèse vocale

Comme pour les modèles de reconnaissance vocale, vous pouvez utiliser le client AzureOpenAI dans le Kit de développement logiciel (SDK) OpenAI pour vous connecter au point de terminaison de votre ressource Microsoft Foundry et charger du texte dans un modèle de synthèse vocale pour la synthèse vocale.

from openai import AzureOpenAI
from pathlib import Path

# Create an AzureOpenAI client
client = AzureOpenAI(
    azure_endpoint=YOUR_FOUNDRY_ENDPOINT,
    api_key=YOUR_FOUNDRY_KEY,
    api_version="2025-03-01-preview"
)

# Path for audio output file
speech_file_path = Path("output_speech.wav")

# Generate speech and save to file
with client.audio.speech.with_streaming_response.create(
            model=YOUR_MODEL_DEPLOYMENT,
            voice="alloy",
            input="This speech was AI-generated!",
            instructions="Speak in an upbeat, excited tone.",
    ) as response:
    response.stream_to_file(speech_file_path)

print(f"Speech generated and saved to {speech_file_path}")