Configurare il formato audio e le voci

Completato

Quando si sintetizza il parlato, è possibile usare un oggetto SpeechConfig per personalizzare l'audio restituito da Voce di Azure in Foundry Tools.

Formato audio

Sintesi vocale di Azure supporta più formati di output per il flusso audio generato dalla sintesi vocale. A seconda delle esigenze specifiche, è possibile scegliere un formato in base alle esigenze richieste:

  • Tipo di file audio
  • Frequenza di campionamento
  • Bit-depth

Ad esempio, il codice Python seguente imposta il formato di output vocale per un oggetto SpeechConfig definito in precedenza denominato speech_config:

speech_config.set_speech_synthesis_output_format(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm)

Per un elenco completo dei formati supportati e dei relativi valori di enumerazione, vedere la documentazione di Azure Speech SDK.

Voci

Il servizio Voce di Azure offre più voci che è possibile usare per personalizzare le applicazioni abilitate per il riconoscimento vocale. Le voci sono identificate da nomi che indicano impostazioni locali, nome di una persona e altri dettagli, ad esempio en-US-Brian:DragonHDLatestNeural.

Il codice di esempio python seguente imposta la voce da usare

speech_config.speech_synthesis_voice_name='en-US-Brian:DragonHDLatestNeural'

Per informazioni sulle voci, vedere la documentazione di Azure Speech SDK.