Resumo

1 minuto

Observação

Consulte a guia Texto e imagens para obter mais detalhes!

Este módulo apresenta o reconhecimento de fala (conversão de fala em texto) como a base para aplicativos e agentes habilitados para voz. Os aprendizes exploram como o áudio falado é capturado através de um microfone ou arquivo de áudio e convertido em texto escrito usando o Azure Speech. O módulo explica onde a conversão de fala em texto se encaixa em um aplicativo — em um aplicativo cliente ou em um serviço de back-end — e realça cenários comuns, como transcrição dinâmica, legendas, processamento de caixa postal e fornecimento de entrada de texto para agentes de IA.

Em seguida, o módulo aborda a síntese de fala (conversão de texto em fala), que permite que os aplicativos gerem áudio falado natural do texto. Os aprendizes veem como o Azure Speech usa vozes neurais para controlar a pronúncia, o tom, a velocidade e o pitch, e como o áudio sintetizado pode ser reproduzido imediatamente ou salvo para uso posterior. Esta seção enfatiza como a conversão de texto em fala permite que aplicativos e agentes respondam audivelmente, melhorando a acessibilidade, a interação mãos-livres e a experiência geral do usuário.

Por fim, o módulo reúne esses recursos com fala para fala usando o Voice Live. Os aprendizes descobrem como o Voice Live combina conversão de fala em texto, raciocínio de IA e conversão de texto em fala em um único serviço totalmente gerenciado para conversas em tempo real. Em vez de unir vários componentes, os desenvolvedores podem usar o Voice Live para criar agentes de voz dinâmicos e naturais que podem ouvir, pensar e falar, facilitando a criação de experiências de conversa prontas para produção com a Fala do Azure e o Microsoft Foundry.

Use os links abaixo para saber mais.

Serviço de Fala do Azure na documentação do serviço
Saiba mais sobre os SDKs (Kits de Desenvolvimento de Software) do Azure Speech
Saiba mais sobre o Azure Speech – Voice Live na documentação

Comentários

Esta página foi útil?