Resumo
Observação
Consulte a guia Texto e imagens para obter mais detalhes!
Este módulo apresenta o reconhecimento de fala (conversão de fala em texto) como a base para aplicativos e agentes habilitados para voz. Os aprendizes exploram como o áudio falado é capturado através de um microfone ou arquivo de áudio e convertido em texto escrito usando o Azure Speech. O módulo explica onde a conversão de fala em texto se encaixa em um aplicativo — em um aplicativo cliente ou em um serviço de back-end — e realça cenários comuns, como transcrição dinâmica, legendas, processamento de caixa postal e fornecimento de entrada de texto para agentes de IA.
Em seguida, o módulo aborda a síntese de fala (conversão de texto em fala), que permite que os aplicativos gerem áudio falado natural do texto. Os aprendizes veem como o Azure Speech usa vozes neurais para controlar a pronúncia, o tom, a velocidade e o pitch, e como o áudio sintetizado pode ser reproduzido imediatamente ou salvo para uso posterior. Esta seção enfatiza como a conversão de texto em fala permite que aplicativos e agentes respondam audivelmente, melhorando a acessibilidade, a interação mãos-livres e a experiência geral do usuário.
Por fim, o módulo reúne esses recursos com fala para fala usando o Voice Live. Os aprendizes descobrem como o Voice Live combina conversão de fala em texto, raciocínio de IA e conversão de texto em fala em um único serviço totalmente gerenciado para conversas em tempo real. Em vez de unir vários componentes, os desenvolvedores podem usar o Voice Live para criar agentes de voz dinâmicos e naturais que podem ouvir, pensar e falar, facilitando a criação de experiências de conversa prontas para produção com a Fala do Azure e o Microsoft Foundry.
Use os links abaixo para saber mais.
- Serviço de Fala do Azure na documentação do serviço
- Saiba mais sobre os SDKs (Kits de Desenvolvimento de Software) do Azure Speech
- Saiba mais sobre o Azure Speech – Voice Live na documentação