Comprendre le serveur MCP Azure Speech

Effectué

Conseil / Astuce

Pour plus d’informations, consultez l’onglet Texte et images !

Le serveur MCP Azure Speech connecte des agents IA à Azure Speech dans Foundry Tools via le protocole MCP (Model Context Protocol). Avant d’explorer le serveur MCP Speech lui-même, il permet de comprendre ce qu’est MCP et comment il permet aux agents d’utiliser des outils externes.

Qu’est-ce que le Protocole de contexte de modèle ?

Le protocole MCP (Model Context Protocol) est un protocole ouvert qui définit la façon dont les agents IA interagissent avec des outils externes, des sources de données et des services. MCP utilise une architecture client-serveur avec les composants suivants :

  • Hôte : application qui exécute l’agent (par exemple, Microsoft Foundry ou une application personnalisée).
  • Client : composant au sein de l’hôte qui gère les connexions aux serveurs MCP et gère la communication.
  • Serveur : programme qui expose des outils, des ressources et des invites qu’un agent peut découvrir et appeler.

Lorsqu’un agent se connecte à un serveur MCP, il reçoit un catalogue d’outils disponibles, ainsi que des descriptions de ce que chaque outil fait. L’agent peut ensuite choisir l’outil approprié en fonction de la demande de l’utilisateur. Cette approche est appelée découverte d’outils dynamiques : l’agent n’a pas besoin de connaissances codées en dur de chaque outil. Au lieu de cela, il interroge le serveur MCP au moment de l’exécution pour savoir ce qui est disponible.

L’avantage clé de MCP pour les agents IA est la flexibilité. Les outils peuvent être ajoutés, mis à jour ou supprimés sur le serveur sans modifier l’agent lui-même. L’agent a toujours accès aux dernières définitions d’outils, ce qui facilite la maintenance et la mise à l’échelle des solutions basées sur MCP.

Conseil / Astuce

Pour en savoir plus sur l’architecture MCP et sur la création d’intégrations d’outils MCP personnalisées, consultez le module Intégrer MCP Tools à Azure AI Agents .

Fonctionnalités du serveur MCP Azure Speech

Le serveur MCP Azure Speech expose deux fonctionnalités vocales principales en tant qu’outils que n’importe quel agent compatible MCP peut appeler :

Capacité Description
Transcription vocale (Reconnaître) Convertit les fichiers audio en texte à l’aide de la reconnaissance vocale avancée. Prend en charge WAV, MP3, OGG, FLAC, MP4, M4A, AAC et d’autres formats audio courants. Inclut des options pour la sélection de langue, les indicateurs d’expression pour améliorer la précision, le filtrage de la profanité et les formats de sortie détaillés ou simples.
Synthèse vocale Convertit l’entrée de texte en fichiers audio naturels à l’aide de voix de synthèse vocale neuronale. Prend en charge plusieurs langues et voix (par exemple, en-US-JennyNeural ou en-GB-SoniaNeural) et génère une sortie dans WAV, MP3 ou d’autres formats.

Lorsque vous connectez le serveur MCP Speech à un agent, l’agent reçoit les outils vocaux disponibles et leurs descriptions. En fonction de l’invite de l’utilisateur, l’agent décide de l’outil à appeler. Par exemple, si un utilisateur indique « Transcrire ce fichier audio », l’agent appelle l’outil de reconnaissance vocale. Si l’utilisateur indique « Générer la voix à partir de ce texte », l’agent appelle l’outil de synthèse vocale.

Comment l’agent sélectionne les outils

Le processus de sélection de l’outil fonctionne comme suit :

  1. L’utilisateur envoie une invite à l’agent.
  2. L’agent analyse l’invite et détermine la tâche vocale à effectuer.
  3. L’agent vérifie les outils MCP disponibles et leurs descriptions pour trouver la meilleure correspondance.
  4. L’agent appelle l’outil sélectionné via le serveur MCP, en passant l’entrée appropriée (URL ou texte du fichier audio).
  5. Le serveur MCP traite la requête à l’aide d’Azure Speech et retourne les résultats (texte transcrit ou lien vers un fichier audio).
  6. L’agent présente les résultats à l’utilisateur dans une réponse en langage naturel.

L’agent gère la sélection de l’outil de manière autonome. Vous n’avez donc pas besoin d’écrire une logique de routage pour déterminer si une invite requiert la reconnaissance vocale ou la synthèse vocale.

Exigences de stockage

Contrairement aux outils MCP de texte uniquement, le serveur MCP Azure Speech fonctionne avec des fichiers audio, ce qui nécessite un compte de stockage Azure.

  • Synthèse vocale : le serveur MCP Speech enregistre les fichiers audio générés dans un conteneur stockage Blob Azure. La réponse de l’agent inclut un lien vers le fichier audio généré.
  • Reconnaissance vocale : l’agent peut transcrire des fichiers audio à partir d’une URL accessible publiquement ou à partir d’un conteneur stockage Blob Azure accessible avec une URL SAP.

Lorsque vous connectez le serveur Speech MCP à votre agent, vous fournissez une URL SAS pour un conteneur d’objets blob. L’URL SAP accorde au serveur MCP l’autorisation de lire et d’écrire des fichiers dans ce conteneur.

Important

Traitez les URL SAS comme des secrets. Utilisez le délai d’expiration le plus court, limitez-les à un seul conteneur et ne les incorporez pas dans le code source, les invites d’agent ou les transcriptions de conversation.

Prerequisites

Pour utiliser le serveur MCP Azure Speech avec un agent, vous avez besoin des éléments suivants :

  • Un abonnement Azure.
  • Une ressource et un projet Foundry : vous devez disposer du rôle de contributeur ou de propriétaire au sein du groupe de ressources. Votre ressource Foundry inclut des fonctionnalités vocales.
  • Un compte stockage Azure comprenant un conteneur de blobs destiné au stockage de fichiers audio.
  • Une URL SAS pour le conteneur de blobs, avec des autorisations de lecture, d’écriture, d’ajout, de création et de liste.

Considérations relatives à la sécurité

Le serveur MCP Azure Speech utilise l’authentification basée sur des clés. Lorsque vous créez la connexion, vous fournissez votre clé de ressource et une URL SAP de conteneur d’objets blob. Suivez ces meilleures pratiques :

  • Stockez des clés et des URL SAS dans un magasin de secrets sécurisé et renouvelez-les régulièrement.
  • Évitez d’incorporer des clés ou des URL SAP directement dans le code source, les scripts ou la documentation.
  • Utilisez le délai d’expiration saS le plus court et limitez-le à la ressource minimale requise.
  • Faites pivoter les touches immédiatement si vous soupçonnez qu’elles sont exposées.