Reconnaissance vocale

[Microsoft Agent est déconseillé à partir de Windows 7 et peut être indisponible dans les versions ultérieures de Windows.]

La reconnaissance vocale fournit une interface très naturelle et familière pour interagir avec des caractères. Toutefois, l’entrée vocale présente également de nombreux défis. Les moteurs vocaux fonctionnent actuellement sans parties substantielles du répertoire de communication vocale humaine, tels que les mouvements, l’intonation et les expressions faciales. En outre, la parole naturelle est généralement sans liaison. Il est facile pour l’orateur de dépasser le vocabulaire actuel, ou grammaire, du moteur. De même, le libellé ou l’ordre des mots peut varier pour toute demande ou réponse donnée. En outre, les moteurs de reconnaissance vocale doivent souvent gérer de grandes variations dans l’environnement de l’orateur. Par exemple, le bruit d’arrière-plan, la qualité du microphone et l’emplacement peuvent affecter la qualité des entrées. De même, différentes prononciations de haut-parleurs ou même variantes identiques, comme lorsque l’orateur a un froid, rendent difficile la conversion des données acoustiques en compréhension de représentation. Enfin, les moteurs vocaux doivent également traiter des mots ou expressions sonores similaires dans une langue, comme « nouveau », « connu » et « gnu », ou « épave d’une belle plage » et « reconnaître la parole ».

La reconnaissance vocale n’est pas toujours la meilleure forme d’entrée pour une tâche. En raison de la nature tour à tour de la parole, il peut souvent être plus lent que d’autres formes d’entrée. Comme le clavier, l’entrée vocale est une interface médiocre pour pointer, sauf si un type de représentation mnémonique est fourni. Par conséquent, déterminez toujours si la parole est l’entrée la plus appropriée pour une tâche. Il est préférable d’éviter d’utiliser la parole comme interface exclusive pour n’importe quelle tâche. Fournissez d’autres façons d’accéder à toutes les fonctionnalités de base à l’aide de méthodes telles que la souris ou le clavier. En outre, tirez parti de la nature multimodal de l’utilisation de la parole dans l’interface visuelle en combinant l’entrée vocale avec des informations visuelles qui permettent de spécifier le contexte et les options.

Enfin, l’utilisation réussie de l’entrée vocale est due uniquement en partie à la qualité de la technologie. Même la reconnaissance humaine, qui dépasse toute technologie de reconnaissance actuelle, échoue parfois. Toutefois, dans la communication humaine, nous utilisons des stratégies qui améliorent la probabilité de réussite et qui fournissent une récupération d’erreur lorsqu’un problème se produit. Par conséquent, l’efficacité de l’entrée vocale dépend également de la qualité de l’interface utilisateur qui la présente.

L’étude des modèles humains d’interaction vocale peut être utile lors de la conception d’interfaces vocales plus naturelles. L’enregistrement de dialogues vocaux réels pour des scénarios particuliers peut vous aider à mieux comprendre les constructions et les modèles utilisés ainsi que les formes efficaces de commentaires et de récupération d’erreurs. Il peut aider à déterminer le vocabulaire approprié à utiliser (pour l’entrée et la sortie). Il est préférable de concevoir une interface vocale en fonction de la façon dont les gens parlent réellement que de simplement le dériver de l’interface graphique dans laquelle il fonctionne.

Notez que Microsoft Agent utilise l’API Microsoft Speech (SAPI) pour prendre en charge la reconnaissance vocale. Cela permet à Microsoft Agent d’être utilisé avec un large éventail de moteurs compatibles. Bien que Microsoft Agent spécifie certaines interfaces de base, les exigences de performances et la qualité d’un moteur peuvent varier.

La reconnaissance vocale n’est pas le seul moyen de prendre en charge les interfaces conversationnelles. Vous pouvez également utiliser le traitement en langage naturel de l’entrée clavier à la place ou en plus de la parole. Dans ces situations, vous pouvez toujours appliquer des instructions pour l’entrée vocale.