Transcrire la parole

Effectué

Conseil

Pour plus d’informations, consultez l’onglet Texte et images !

La transcription vocale ou la reconnaissance vocale implique l’envoi de contenu audio à un modèle, qui répond avec une transcription textuelle de la parole dans la source audio.

Les modèles qui prennent en charge les opérations de reconnaissance vocale sont les suivants :

  • gpt-4o-transscribe
  • gpt-4o-mini-transscribe
  • gpt-4o-transcribe-diarize

Note

La disponibilité du modèle varie selon les régions. Passez en revue la table de disponibilité régionale du modèle dans la documentation Microsoft Foundry.

Utilisation d’un modèle de reconnaissance vocale

Pour utiliser un modèle de reconnaissance vocale dans votre propre application, vous pouvez utiliser le client AzureOpenAI dans le Kit de développement logiciel (SDK) OpenAI pour vous connecter au point de terminaison de votre ressource Microsoft Foundry et charger le contenu d’un fichier audio dans le modèle pour la transcription.

from openai import AzureOpenAI
from pathlib import Path

# Create an AzureOpenAI client
client = AzureOpenAI(
    azure_endpoint=YOUR_FOUNDRY_ENDPOINT,
    api_key=YOUR_FOUNDRY_KEY,
    api_version="2025-03-01-preview"
)

# Get the audio file
file_path = Path("speech.mp3")
audio_file = open(file_path, "rb")

# Use the model to transcribe the audio file
transcription = client.audio.transcriptions.create(
    model=YOUR_MODEL_DEPLOYMENT,
    file=audio_file,
    response_format="text"
)

print(transcription)