Connecter et utiliser le serveur MCP Speech avec un agent

8 minutes

Conseil / Astuce

Pour plus d’informations, consultez l’onglet Texte et images !

Une fois que vous avez compris les fonctionnalités du serveur MCP Azure Speech, l’étape suivante consiste à la connecter à un agent et à commencer à l’utiliser. Cela implique la configuration du stockage, la création d’un agent dans Microsoft Foundry, la connexion de l’outil Speech MCP, son test dans le terrain de jeu de l’agent et éventuellement la création d’une application cliente.

Configurer le stockage Blob Azure

Le serveur MCP Azure Speech nécessite un compte de stockage Azure pour stocker des fichiers audio. Vous devez créer un compte de stockage et un conteneur blob avant de connecter l’outil.

Dans le portail Azure, créez un compte de stockage Azure (ou utilisez-en un existant).
Dans le compte de stockage, développez Stockage de données et sélectionnez Conteneurs.
Créez un nouveau conteneur (par exemple, nommé fichiers) pour stocker les fichiers audio générés et lus par votre agent.
Générez un jeton SAP pour le conteneur avec les autorisations suivantes : Lecture, Ajout, Création, Écriture et Liste. Réglez la durée d’expiration sur la durée la plus courte possible.

Important

Copiez l’URL SAP générée et stockez-la en toute sécurité . Vous en avez besoin lors de la connexion du serveur MCP Speech.

Créer un projet et un assistant Foundry

Pour utiliser le serveur MCP Azure Speech, vous avez besoin d’un projet Microsoft Foundry avec un modèle déployé.

Dans le portail Microsoft Foundry, créez un projet (ou utilisez-en un existant).
Déployez un modèle (tel que gpt-4.1) que votre agent utilisera pour le raisonnement et la génération de réponses.

Créez un agent et donnez-lui des instructions qui décrivent son objectif. Par exemple:

You are an AI agent that uses the Azure AI Speech tool to transcribe and generate speech.

L’agent est désormais prêt à recevoir des connexions d’outils.

Connecter le serveur MCP Azure Speech

Vous connectez le serveur MCP Azure Speech à votre agent via la page Outils du portail Foundry.

Dans le volet de navigation, sélectionnez la page Outils .
Sélectionnez Connecter un outil et choisissez Azure Speech dans Foundry Tools dans le catalogue.
Configurez la connexion avec les paramètres suivants :
- Nom de la ressource Foundry : nom de votre ressource Foundry (par exemple, myproject-resource).
- Bearer (Ocp-Apim-Subscription-Key) : la clé de votre projet Foundry.
- X-Blob-Container-Url : URL SAP de votre conteneur d’objets blob.
Attendez la création de la connexion, puis sélectionnez Utiliser dans un agent et choisissez votre agent.

Capture d’écran du catalogue Outils dans le portail Foundry montrant la configuration de connexion d’Azure Speech dans Foundry Tools.

L’agent a désormais accès aux outils de reconnaissance vocale et de synthèse vocale exposés par le serveur MCP Azure Speech.

Conseil / Astuce

Vous trouverez la clé de projet sur la page d’accueil du projet dans le portail Foundry.

Test dans l’environnement de test de l’agent

Le terrain de jeu de l’agent dans le portail Foundry fournit un environnement interactif pour tester votre agent.

Tester la synthèse vocale

Entrez une invite demandant à l'agent de générer un discours :

Generate "To be or not to be, that is the question." as speech

La première fois que l’agent utilise l’outil Speech MCP, vous êtes invité à approuver l’utilisation de l’outil. Vous pouvez sélectionner Toujours approuver tous les outils de serveur MCP Azure Speech pour ignorer les invites d’approbation futures.

La réponse inclut un lien vers le fichier audio généré enregistré dans votre conteneur de blobs. Sélectionnez le lien pour écouter la voix synthétisée.

Tester la reconnaissance vocale

Entrez une invite qui demande à l’agent de transcrire un fichier audio. Vous pouvez utiliser une URL accessible publiquement ou une URL SAP pointant vers un fichier dans votre conteneur d’objets blob :

Transcribe the file at https://example.com/audio/meeting-recording.wav

L’agent appelle l’outil de reconnaissance vocale et retourne le texte transcrit.

Personnalisation de la sortie vocale

Les outils SPEECH MCP prennent en charge plusieurs options que vous pouvez spécifier dans vos invites :

Sélection vocale : spécifiez une voix neuronale, telle que en-GB-SoniaNeural ou en-US-JennyNeural.
Langue : spécifiez la langue pour la reconnaissance ou la synthèse (par exemple, es-ES pour l’espagnol).
Indicateurs d’expression : fournissez des termes spécifiques au domaine pour améliorer la précision de la transcription (par exemple, « Azure, OpenAI, Cognitive Services »).
Filtrage des grossièretés : demandez le traitement des grossièretés selon les niveaux masked, removed ou raw lors de la transcription.

Par exemple:

Synthesize "Better a witty fool, than a foolish wit!" as speech using the voice "en-GB-SoniaNeural".

Créer une application cliente

Bien que le terrain de jeu de l’agent soit utile pour les tests, vous souhaitez généralement créer une application cliente qui utilise l’agent par programmation. Le Kit de développement logiciel (SDK) Microsoft Foundry prend en charge cela via l’API Réponses OpenAI.

Pour construire une application cliente, vous utilisez les packages azure-ai-projects et azure-identity. Le modèle général est le suivant :

Créez un AIProjectClient en utilisant le point de terminaison de votre projet Foundry et DefaultAzureCredential (qui utilise vos identifiants Azure CLI en mode développement).
Obtenez un client OpenAI à partir du client de projet en appelant get_openai_client().
Appelez responses.create() pour envoyer une invite utilisateur à l’agent.

La partie clé est la façon dont vous référencez l’agent : vous le spécifiez par son nom dans le extra_body paramètre :

response = openai_client.responses.create(
    input=[{"role": "user", "content": user_prompt}],
    extra_body={
        "agent_reference": {
            "name": "Speech-Agent",
            "type": "agent_reference"
        }
    },
)

print(response.output_text)

L’agent traite la demande, appelle l’outil Speech MCP approprié et renvoie le résultat dans output_text. Pour les demandes de synthèse vocale, la sortie inclut un lien vers le fichier audio généré dans votre conteneur d’objets blob.

Connecter le serveur MCP dans le code

Au lieu de connecter le serveur MCP Azure Speech via le portail Foundry, vous pouvez définir la connexion de l’outil MCP directement dans le code lorsque vous créez un agent. Utilisez la MCPTool classe à partir du azure-ai-projects Kit de développement logiciel (SDK) :

from azure.ai.projects.models import MCPTool

mcp_tool = MCPTool(
    server_label="azure-speech",
    server_url="https://{foundry-resource-name}.cognitiveservices.azure.com/speech/mcp",
    require_approval="always",
)

Vous passez ensuite le mcp_tool lors de la création de l’agent via le SDK. Cette approche est utile lorsque vous souhaitez gérer les connexions d’outils dans le cadre de votre code d’application plutôt que de les configurer manuellement dans le portail.

Commentaires

Cette page a-t-elle été utile ?