Création d'un agent capable de parole

4 minutes

Note

Pour plus d’informations, consultez l’onglet Texte et images !

Les agents IA sont des programmes logiciels qui peuvent comprendre des informations, prendre des décisions et prendre des mesures de leur propre façon d’aider les utilisateurs à atteindre des objectifs spécifiques. Un objectif commun pour les agents d’IA est de pouvoir mener des conversations vocales en temps réel comme vous le feriez avec un humain.

La reconnaissance vocale est une fonctionnalité qui permet à une application de prendre l’audio parlé en entrée et de produire de l’audio parlé en sortie, sans obliger l’utilisateur à lire ou taper du texte. L’expérience utilisateur se sent comme une conversation vocale naturelle.

La reconnaissance vocale permet aux systèmes de :

Écouter une personne parlant
Comprendre ou transformer ce qui a été dit
Répondre avec la parole synthétique

La reconnaissance vocale combine la reconnaissance vocale et la synthèse vocale en une seule expérience conversationnelle. Le speech-to-speech est conçu comme un pipeline de fonctionnalités de reconnaissance vocale et linguistique. Le pipeline se termine :

Reconnaissance vocale : conversion de l’audio parlé par l’utilisateur en texte.
Traitement ou raisonnement : Analyse, traduction et synthèse du texte, ou utilisé par un agent IA pour décider de ce qu’il faut dire ensuite.
Synthèse vocale : Convertir le texte de la réponse en format parlé.

Les scénarios de reconnaissance vocale courants sont les suivants :

Assistants vocaux et agents IA : les utilisateurs parlent à un agent et écoutent les réponses vocales.
Traduction vocale : un utilisateur parle dans une langue et entend la réponse dans une autre langue.
Applications mains libres : systèmes de navigation, kiosques ou outils industriels où la saisie n’est pas pratique.
Accessibilité : interaction vocale pour les utilisateurs qui préfèrent ou nécessitent une entrée et une sortie audio.
Bots de support client : les appelants parlent naturellement et reçoivent des réponses vocales.

Azure Parole - Voix en Direct

Azure Speech inclut un service VoiceLive Service qui facilite la création d’agents conversationnels. L’API Voice Live permet aux applications d’avoir des conversations vocales en temps réel. Cela permet à un agent vocal d'écouter quelqu'un qui parle et de répondre avec une réponse vocale rapidement et naturellement.

Au lieu de créer et de connecter de nombreux éléments distincts( comme la reconnaissance vocale, le raisonnement ia et la synthèse vocale), l’API Voice Live combine tout en un seul service. L’API Voice Live facilite et accélère la création d’expériences vocales par les développeurs.

Azure gère entièrement VoiceLive, ce qui signifie que vous n’avez pas besoin de configurer ou de gérer vous-même les systèmes principaux. Lorsque vous envoyez de l’audio dans VoiceLive, il renvoie des réponses parlées. VoiceLive peut également retourner des visuels, tels que des avatars et déclencher des actions si nécessaire. Azure gère les modèles et l’infrastructure en arrière-plan. Vous pouvez donc vous concentrer sur la création de l’expérience vocale.

Azure solutions de reconnaissance vocale utilisent :

Azure Speech qui fournit les fonctionnalités de reconnaissance vocale et de synthèse vocale.
Agents ou logique d’application qui prend des décisions sur les réponses.
Outils Foundry ou serveurs MCP qui peuvent exposer la parole comme des outils appelables, permettant ainsi aux agents de ne pas gérer directement les SDK ou les API.

Vous pouvez explorer Voice Live dans un terrain de jeu dans le portail Foundry. Le terrain de jeu Foundry comprend des exemples vocaux préconfigurés que vous pouvez essayer, ou vous pouvez créer une solution de votre choix. Lorsque vous créez une solution, il est important de choisir un modèle d’IA générative pour que votre agent utilise. Azure Speech Voice Live utilise le modèle IA génératif alongside ses propres modèles acoustiques pour avoir une conversation en direct avec l’utilisateur. Vous pouvez configurer de nombreux paramètres dans le terrain de jeu. Par exemple, vous pouvez activer l’engagement proactif, afin que l’agent puisse lancer des conversations.

Vous pouvez également activer modeVoice pour un agent Microsoft Foundry dans le terrain de jeu, qui intègre Azure Speech Voice Live dans la définition de l’agent. Cette approche signifie que la configuration vocale est encapsulée dans l’agent lui-même, ce qui réduit le code client requis pour l’utiliser.

Utilisation de Voice Live dans une application

Pour développer une application personnalisée qui utilise l’agent, nous devons écrire du code. Pour créer une application dans Python, vous avez besoin du package azure-ai-voicelive.

Le package peut être installé dans le Visual Studio Code terminal à l’aide de :

pip install azure-ai-voicelive

Note

Vous devez également installer pyaudio, python-dotenvet azure-identity pour exécuter votre application Voice Live.

Vous trouverez un exemple de code pour une application speech-to-speech dans le portail Foundry. L’exemple de code gère toute la logique nécessaire pour lancer la session, se connecter à des périphériques audio tels que des micros et des haut-parleurs, traiter les flux audio entrants et sortants, gérer les interruptions, et ainsi de suite. L’exemple de code est un bon point de départ pour la création de votre propre application.

Vous pouvez prendre l’exemple de code dans votre propre éditeur de code et installer les packages appropriés. Lorsque vous exécutez l’application, un assistant vocal en temps réel diffuse l'audio de votre microphone vers Azure Voice Live, reçoit la réponse audio parlée de l’assistant et la joue via vos haut-parleurs.

Screenshot du résultat du script VoiceLive Python script.

Voice Live in Azure Speech offre un moyen efficace de créer des agents conversationnels compatibles avec la voix qui interagissent naturellement avec les utilisateurs. Ensuite, essayez Azure Speech - Voice Live in Foundry vous-même.

Commentaires

Cette page a-t-elle été utile ?