Criando um agente com capacidade de fala
Observação
Consulte a guia Texto e imagens para obter mais detalhes!
Os agentes de IA são programas de software que podem entender informações, tomar decisões e tomar ações por conta própria para ajudar os usuários a alcançar metas específicas. Um objetivo comum para os agentes de IA é poder conduzir conversas faladas em tempo real como você faria com um humano.
A conversão de fala em fala é uma funcionalidade que permite que um aplicativo use áudio falado como entrada e produza áudio falado como saída, sem exigir que o usuário leia ou digite texto. A experiência do usuário parece uma conversa de voz natural.
A transcrição de fala para fala permite que os sistemas:
- Ouça uma pessoa falando
- Entender ou transformar o que foi dito
- Responder com fala sintética
A transformação de fala em fala combina transformação de fala em texto e texto em fala em uma única experiência conversacional. A fala em fala é criada como um pipeline de recursos de fala e linguagem. O pipeline é concluído:
- Conversão de fala em texto: convertendo o áudio falado do usuário em texto.
- Processamento ou raciocínio: analisando, traduzindo e resumindo o texto ou usado por um agente de IA para decidir o que dizer a seguir.
- Conversão de texto em fala: convertendo o texto de resposta de volta em áudio falado.
Cenários comuns de conversão de fala para fala incluem:
- Assistentes de voz e agentes de IA: os usuários conversam com um agente e ouvem respostas faladas.
- Tradução de fala: um usuário fala em um idioma e ouve a resposta em outro idioma.
- Aplicativos de mãos livres: sistemas de navegação, quiosques ou ferramentas industriais em que a digitação não é prática.
- Acessibilidade: interação baseada em voz para usuários que preferem ou exigem entrada e saída de áudio.
- Bots de suporte ao cliente: os chamadores falam naturalmente e recebem respostas faladas.
Azure Speech – Voice Live
Azure Speech inclui um VoiceLive Service que facilita a criação de agentes de conversação. A API do Voice Live permite que os aplicativos tenham conversas de voz em tempo real. Ele permite que um agente de voz ouça alguém falando e responda com áudio falado de forma rápida e natural.
Em vez de criar e conectar muitas partes separadas, como conversão de fala em texto, raciocínio de IA e conversão de texto em fala, a API do Voice Live combina tudo em um único serviço. A API do Voice Live torna mais fácil e rápido para os desenvolvedores criarem experiências baseadas em voz.
Azure gerencia totalmente VoiceLive, o que significa que você não precisa configurar ou manter os sistemas de back-end por conta própria. Quando você envia áudio para o VoiceLive, ele envia respostas faladas de volta. O VoiceLive também pode retornar visuais, como avatares, e disparar ações quando necessário. Azure lida com os modelos e a infraestrutura nos bastidores, para que você possa se concentrar na criação da experiência de voz.
As soluções de fala para fala do Azure utilizam:
- Azure Speech que fornece os recursos de conversão de fala em texto e conversão de texto em fala.
- Agentes ou lógica do aplicativo que tomam decisões sobre respostas.
- Foundry Tools ou servidores MCP que podem expor a fala como ferramentas chamáveis para que os agentes não gerenciem SDKs ou APIs diretamente.
Você pode explorar o Voice Live em um playground no portal do Foundry. O playground do Foundry inclui alguns exemplos de voz pré-configurados que você pode experimentar ou você pode criar uma solução própria. Quando você cria uma solução, o importante é escolher um modelo de IA generativo para o agente usar. Azure Speech Voice Live usa o modelo de IA gerativo juntamente com seus próprios modelos acústicos para ter uma conversa ao vivo com o usuário. Você pode definir muitas configurações no playground. Por exemplo, você pode habilitar o envolvimento proativo, para que o agente possa iniciar conversas.
Você também pode habilitar o modo Voice para um agente do Microsoft Foundry no playground, que integra Azure Speech Voice Live à definição do agente. Essa abordagem significa que a configuração de fala é encapsulada no próprio agente, reduzindo o código do cliente necessário para usá-lo.
Usando o Voice Live em um aplicativo
Para desenvolver um aplicativo personalizado que usa o agente, precisamos escrever algum código. Para criar um aplicativo no Python, você precisa do pacote azure-ai-voicelive.
O pacote pode ser instalado no Visual Studio Code terminal usando:
pip install azure-ai-voicelive
Observação
Você também precisa instalar pyaudio, python-dotenv e azure-identity para executar seu aplicativo Voice Live.
Você pode encontrar um código de exemplo para um aplicativo de fala-a-fala no portal Foundry. O código de exemplo manipula toda a lógica necessária para iniciar a sessão, conectar-se a dispositivos de áudio, como microfones e alto-falantes, processar os fluxos de entrada e saída de áudio, lidar com interrupções e assim por diante. O código de exemplo é um bom ponto de partida para criar seu próprio aplicativo.
Você pode levar o código de exemplo para seu próprio editor de código e instalar os pacotes adequados. Quando você executa o aplicativo, um assistente de voz em tempo real transmite o áudio do microfone para Azure o Voice Live, recebe a resposta de áudio falada do assistente e o reproduz por meio de seus alto-falantes.
O Voice Live no Azure Speech oferece uma maneira eficaz de criar agentes de conversa com capacidade de fala que se envolvam naturalmente com os usuários. Em seguida, experimente Azure Speech – Voice Live in Foundry por conta própria.