Audio-indeling en stemmen configureren
Tip
Zie het tabblad Tekst en afbeeldingen voor meer informatie.
Wanneer u spraaksynthetiseert, kunt u een SpeechConfig-object gebruiken om de audio die wordt geretourneerd door Azure Speech in Foundry Tools aan te passen.
Audio-indeling
Azure Speech ondersteunt meerdere uitvoerindelingen voor de audiostroom die wordt gegenereerd door spraaksynthese. Afhankelijk van uw specifieke behoeften kunt u een indeling kiezen op basis van de vereiste:
- Audiobestandstype
- Samplefrequentie
- Bitdiepte
Met de volgende Python-code wordt bijvoorbeeld de spraakuitvoerindeling ingesteld voor een eerder gedefinieerd SpeechConfig-object met de naam speech_config:
speech_config.set_speech_synthesis_output_format(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm)
Zie de documentatie van de Azure Speech SDK voor een volledige lijst met ondersteunde indelingen en de bijbehorende opsommingswaarden.
Stemmen
De Azure Speech-service biedt meerdere stemmen die u kunt gebruiken om uw toepassingen met spraak te personaliseren. Stemmen worden geïdentificeerd door namen die een taalgebied, de naam van een persoon en andere details weergeven, bijvoorbeeld en-US-Brian:DragonHDLatestNeural.
Met de volgende Python-voorbeeldcode wordt de stem ingesteld die moet worden gebruikt
speech_config.speech_synthesis_voice_name='en-US-Brian:DragonHDLatestNeural'
Zie de documentatie van de Azure Speech SDK voor meer informatie over stemmen.