Introdução
Os recursos de fala de IA nos permitem gerenciar sistemas com instruções de voz, obter respostas de computadores para perguntas faladas, gerar legendas de áudio e muito mais. As interfaces baseadas em voz fornecem uma maneira mais natural de se envolver com o software de IA. A capacidade de interagir por meio da linguagem falada pode aumentar a acessibilidade e a inclusão de aplicativos e agentes.
Para habilitar esse tipo de interação, o sistema de IA precisa ser compatível com pelo menos duas funcionalidades:
- Reconhecimento de fala: a capacidade de detectar e interpretar a entrada falada
- Síntese de fala: a capacidade de gerar saída falada
Exemplos desses recursos incluem:
Ditado clínico e observação na saúde: os médicos podem dizer anotações do paciente em voz alta durante ou após as consultas. Um aplicativo de fala de IA converte o áudio em texto médico preciso, reduzindo a digitação manual e economizando tempo.
Transcrição de chamada no suporte ao cliente: os centros de contato transcrevem chamadas de clientes em tempo real, facilitando a revisão de conversas, detecção de problemas e análise de sentimento.
Legendas automatizadas em mídia e entretenimento: as plataformas de vídeo geram legendas ao vivo ou gravadas para shows e fluxos, melhorando a acessibilidade e dando suporte a públicos multilíngues.
Comentários sobre aprendizado de idioma e pronúncia na educação: os aplicativos de aprendizagem usam recursos de fala de IA para ouvir os alunos falarem e fornecerem comentários de pronúncia, ajudando os alunos a praticar e melhorar as habilidades de linguagem falada.
Assistentes habilitados para voz no varejo e no comércio eletrônico: os assistentes de compras virtuais usam o reconhecimento de fala para entender as solicitações faladas do cliente e a conversão de texto em fala para responder com informações do produto ou status do pedido.
Azure Speech no Microsoft Foundry Tools fornece recursos de conversão de fala em texto, Conversão de Texto em Fala e tradução de fala por meio do reconhecimento e síntese de fala. Você pode usar modelos de serviço para Fala predefinidos e personalizados para diversas tarefas, desde transcrever áudio em texto com alta precisão, identificar alto-falantes em conversas, criar vozes personalizadas e muito mais. Em seguida, saiba como incorporar o reconhecimento de fala em um aplicativo com a Fala do Azure.
Observação
Reconhecemos que pessoas diferentes gostam de aprender de maneiras diferentes. Você pode optar por concluir este módulo em formato baseado em vídeo ou ler o conteúdo como texto e imagens. O texto contém mais detalhes do que os vídeos, portanto, em alguns casos, talvez você queira se referir a ele como material complementar à apresentação de vídeo.