Présentation

Effectué

Les fonctionnalités IA vocales nous permettent de gérer des systèmes avec des instructions vocales, d’obtenir des réponses à partir d’ordinateurs pour des questions orales, de générer des sous-titres à partir de l’audio, et bien plus encore. Les interfaces vocales offrent un moyen plus naturel d’interagir avec les logiciels IA. La possibilité d’interagir par le langage parlé peut augmenter l’accessibilité et l’inclusion des applications et des agents.

Pour permettre ce type d’interaction, le système d’IA doit prendre en charge au moins deux fonctionnalités :

  • Reconnaissance vocale : la possibilité de détecter et d’interpréter l’entrée vocale
  • Synthèse vocale : capacité à générer une sortie vocale

Voici quelques exemples de ces fonctionnalités :

  • Dictée clinique et prise de notes dans les soins de santé : les médecins peuvent dire des notes de patient à haute voix pendant ou après des rendez-vous. Une application de reconnaissance vocale IA convertit l’audio en texte médical précis, ce qui réduit la saisie manuelle et permet de gagner du temps.

  • Transcription des appels dans le support client : les centres de contacts transcrivent les appels clients en temps réel, ce qui facilite la révision des conversations, la détection des problèmes et l’analyse des sentiments.

  • Sous-titrage automatisé dans les médias et les divertissements : les plateformes vidéo génèrent des sous-titres en direct ou enregistrés pour les émissions et les flux, ce qui améliore l’accessibilité et la prise en charge des audiences multilingues.

  • Apprentissage linguistique et commentaires de prononciation dans l’éducation : les applications d’apprentissage utilisent des fonctionnalités vocales IA pour écouter les étudiants parler et fournir des commentaires de prononciation, aidant les apprenants à pratiquer et à améliorer les compétences en langue parlée.

  • Assistants vocaux dans la vente au détail et le commerce électronique : les assistants commerciaux virtuels utilisent la reconnaissance vocale pour comprendre les demandes des clients parlés et la synthèse vocale pour répondre aux informations sur le produit ou à l’état de la commande.

Azure Speech dans Microsoft Foundry Tools fournit des fonctionnalités de reconnaissance vocale, de synthèse vocale et de traduction vocale via la reconnaissance vocale et la synthèse vocale. Vous pouvez utiliser des modèles de service Speech prédéfinis et personnalisés pour diverses tâches comme la transcription de l’audio en texte avec une précision élevée, l’identification des orateurs dans les conversations et la création de voix personnalisées. Découvrez ensuite comment incorporer la reconnaissance vocale dans une application avec Azure Speech.

Note

Nous reconnaissons que différentes personnes aiment apprendre de différentes façons. Vous pouvez choisir d’effectuer ce module au format vidéo ou lire le contenu sous forme de texte et d’images. Le texte contient plus de détails que les vidéos. Dans certains cas, vous voudrez peut-être y faire référence en tant que matériel supplémentaire à la présentation vidéo.