Introducción
La transcripción y la síntesis de voz son funcionalidades útiles en muchos escenarios, entre los que se incluyen:
- Documentar conversaciones habladas en llamadas y reuniones.
- Generar subtítulos para vídeos o presentaciones.
- Creación de interfaces de usuario audibles para mejorar la accesibilidad de las aplicaciones.
- Desarrollo de asistentes de INTELIGENCIA artificial sin manos que leen mensajes de texto o correos electrónicos en voz alta.
En este módulo, exploraremos cómo usar modelos de IA generativas compatibles con voz en Microsoft Foundry para convertir la voz en texto y texto en voz.
Note
Reconocemos que a diferentes personas les gusta aprender de diferentes maneras. Puede optar por completar este módulo en formato basado en vídeo o puede leer el contenido como texto e imágenes. El texto contiene más detalle que los vídeos, por lo que, en algunos casos, es posible que desee hacer referencia a él como material complementario para la presentación de vídeo.