Spraak transcriberen

Voltooid

Tip

Zie het tabblad Tekst en afbeeldingen voor meer informatie.

Spraaktranscriptie of spraak-naar-tekst omvat het verzenden van audio-inhoud naar een model, dat reageert met een transcriptie op basis van tekst van de spraak in de audiobron.

Modellen die spraak-naar-tekstbewerkingen ondersteunen, zijn onder andere:

  • gpt-4o-transcriberen
  • gpt-4o-mini-transcribe
  • gpt-4o-transcribe-diarize

Opmerking

De beschikbaarheid van modellen verschilt per regio. Bekijk de regionale beschikbaarheidstabel van het model in de Documentatie van Microsoft Foundry.

Een spraak-naar-tekstmodel gebruiken

Als u een spraak-naar-tekstmodel in uw eigen toepassing wilt gebruiken, kunt u de AzureOpenAI-client in de OpenAI SDK gebruiken om verbinding te maken met het eindpunt voor uw Microsoft Foundry-resource en de inhoud van een audiobestand te uploaden naar het model voor transcriptie.

from openai import AzureOpenAI
from pathlib import Path

# Create an AzureOpenAI client
client = AzureOpenAI(
    azure_endpoint=YOUR_FOUNDRY_ENDPOINT,
    api_key=YOUR_FOUNDRY_KEY,
    api_version="2025-03-01-preview"
)

# Get the audio file
file_path = Path("speech.mp3")
audio_file = open(file_path, "rb")

# Use the model to transcribe the audio file
transcription = client.audio.transcriptions.create(
    model=YOUR_MODEL_DEPLOYMENT,
    file=audio_file,
    response_format="text"
)

print(transcription)