Discurso

Completado

Nota:

Consulte la pestaña Texto e imágenes para obtener más detalles.

Las funcionalidades de voz en aplicaciones y agentes de inteligencia artificial permiten a los usuarios interactuar con ellos a través del lenguaje hablado.

Por ejemplo, nuestro sitio de historial informático podría incluir un botón de micrófono que permita a los usuarios formular preguntas verbalmente y responder mediante la síntesis de respuestas habladas.

Captura de pantalla de un sitio de historial informático que realiza el reconocimiento de voz.

Reconocimiento de voz

Diagrama de la entrada hablada de un usuario que se convierte en texto.

El reconocimiento de voz es la capacidad de la inteligencia artificial de "escuchar" e interpretar la voz. Normalmente, esta funcionalidad tiene la forma de conversión de voz en texto (donde la señal de audio para la voz se transcribe en texto).

Síntesis de voz

Diagrama de texto que se convierte en voz audible.

La síntesis de voz es la capacidad de la IA de transformar palabras en lenguaje hablado. Normalmente, esta funcionalidad adopta la forma de texto a voz en la que la información en formato de texto se convierte en una señal audible.

La tecnología de voz de IA está evolucionando rápidamente para controlar los desafíos, como ignorar el ruido de fondo, detectar interrupciones y generar voces cada vez más expresivas y similares a las humanas.

Escenarios de voz de IA

Entre los usos comunes de las tecnologías de voz de IA se incluyen:

  • Agentes de inteligencia artificial que comprenden la entrada hablada, realizan tareas y responden con los resultados hablados.
  • Transcripción automatizada de llamadas o reuniones.
  • Automatización de descripciones de audio de vídeo o texto.
  • Traducción automatizada de voz entre idiomas.