Resumo

Concluído

Observação

Consulte a guia Texto e imagens para obter mais detalhes!

Este módulo apresenta o reconhecimento de fala (conversão de fala em texto) como a base para aplicativos e agentes habilitados para voz. Os aprendizes exploram como o áudio falado é capturado através de um microfone ou arquivo de áudio e convertido em texto escrito usando o Azure Speech. O módulo explica onde a conversão de fala em texto se encaixa em um aplicativo — em um aplicativo cliente ou em um serviço de back-end — e realça cenários comuns, como transcrição dinâmica, legendas, processamento de caixa postal e fornecimento de entrada de texto para agentes de IA.

Em seguida, o módulo aborda a síntese de fala (conversão de texto em fala), que permite que os aplicativos gerem áudio falado natural do texto. Os aprendizes veem como o Azure Speech usa vozes neurais para controlar a pronúncia, o tom, a velocidade e o pitch, e como o áudio sintetizado pode ser reproduzido imediatamente ou salvo para uso posterior. Esta seção enfatiza como a conversão de texto em fala permite que aplicativos e agentes respondam audivelmente, melhorando a acessibilidade, a interação mãos-livres e a experiência geral do usuário.

Por fim, o módulo reúne esses recursos com fala para fala usando o Voice Live. Os aprendizes descobrem como o Voice Live combina conversão de fala em texto, raciocínio de IA e conversão de texto em fala em um único serviço totalmente gerenciado para conversas em tempo real. Em vez de unir vários componentes, os desenvolvedores podem usar o Voice Live para criar agentes de voz dinâmicos e naturais que podem ouvir, pensar e falar, facilitando a criação de experiências de conversa prontas para produção com a Fala do Azure e o Microsoft Foundry.

Use os links abaixo para saber mais.