Introducción

Completado

La transcripción y la síntesis de voz son funcionalidades útiles en muchos escenarios, entre los que se incluyen:

  • Documentar conversaciones habladas en llamadas y reuniones.
  • Generar subtítulos para vídeos o presentaciones.
  • Creación de interfaces de usuario audibles para mejorar la accesibilidad de las aplicaciones.
  • Desarrollo de asistentes de INTELIGENCIA artificial sin manos que leen mensajes de texto o correos electrónicos en voz alta.

En este módulo, exploraremos cómo usar modelos de IA generativas compatibles con voz en Microsoft Foundry para convertir la voz en texto y texto en voz.

Note

Reconocemos que a diferentes personas les gusta aprender de diferentes maneras. Puede optar por completar este módulo en formato basado en vídeo o puede leer el contenido como texto e imágenes. El texto contiene más detalle que los vídeos, por lo que, en algunos casos, es posible que desee hacer referencia a él como material complementario para la presentación de vídeo.