Audio-indeling en stemmen configureren

Voltooid

Tip

Zie het tabblad Tekst en afbeeldingen voor meer informatie.

Wanneer u spraaksynthetiseert, kunt u een SpeechConfig-object gebruiken om de audio die wordt geretourneerd door Azure Speech in Foundry Tools aan te passen.

Audio-indeling

Azure Speech ondersteunt meerdere uitvoerindelingen voor de audiostroom die wordt gegenereerd door spraaksynthese. Afhankelijk van uw specifieke behoeften kunt u een indeling kiezen op basis van de vereiste:

  • Audiobestandstype
  • Samplefrequentie
  • Bitdiepte

Met de volgende Python-code wordt bijvoorbeeld de spraakuitvoerindeling ingesteld voor een eerder gedefinieerd SpeechConfig-object met de naam speech_config:

speech_config.set_speech_synthesis_output_format(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm)

Zie de documentatie van de Azure Speech SDK voor een volledige lijst met ondersteunde indelingen en de bijbehorende opsommingswaarden.

Stemmen

De Azure Speech-service biedt meerdere stemmen die u kunt gebruiken om uw toepassingen met spraak te personaliseren. Stemmen worden geïdentificeerd door namen die een taalgebied, de naam van een persoon en andere details weergeven, bijvoorbeeld en-US-Brian:DragonHDLatestNeural.

Met de volgende Python-voorbeeldcode wordt de stem ingesteld die moet worden gebruikt

speech_config.speech_synthesis_voice_name='en-US-Brian:DragonHDLatestNeural'

Zie de documentatie van de Azure Speech SDK voor meer informatie over stemmen.