Azure Speech MCP サーバーについて

7 分

Azure Speech MCP サーバーは、 モデルコンテキストプロトコル (MCP) を使用して、Foundry Tools で AI エージェントを Azure Speech に接続します。 Speech MCP サーバー自体を探索する前に、MCP とは何か、およびエージェントが外部ツールを使用できるようにする方法を理解するのに役立ちます。

モデルコンテキストプロトコルとは

モデルコンテキストプロトコル (MCP) は、AI エージェントが外部ツール、データソース、およびサービスと対話する方法を定義するオープンプロトコルです。 MCP では、次のコンポーネントを含むクライアント/サーバーアーキテクチャを使用します。

ホスト: エージェントを実行するアプリケーション (Microsoft Foundry やカスタムアプリなど)。
クライアント: MCP サーバーへの接続を管理し、通信を処理するホスト内のコンポーネント。
サーバー: エージェントが検出して呼び出すことができるツール、リソース、プロンプトを公開するプログラム。

エージェントは、MCP サーバーに接続すると、使用可能なツールのカタログと、各ツールの動作の説明を受け取ります。エージェントは、ユーザーの要求に基づいて適切なツールを選択できます。このアプローチは 動的ツール検出 と呼ばれ、エージェントは各ツールに関するハードコーディングされた知識を必要としません。代わりに、実行時に MCP サーバーにクエリを実行して、使用可能な内容を確認します。

AI エージェントの MCP の主な利点は、柔軟性です。エージェント自体を変更せずに、サーバー上でツールを追加、更新、または削除できます。エージェントは常に最新のツール定義にアクセスできるため、MCP ベースのソリューションの保守とスケーリングが容易になります。

ヒント

MCP アーキテクチャとカスタム MCP ツール統合を構築する方法の詳細については、「 MCP Tools と Azure AI Agents の統合 」モジュールを参照してください。

Azure Speech MCP サーバーの機能

Azure Speech MCP サーバーは、MCP 互換エージェントが呼び出すことができるツールとして、次の 2 つのコア音声機能を公開します。

能力説明

音声テキスト変換 (Recognize) 高度な音声認識を使用して、オーディオファイルをテキストに変換します。 WAV、MP3、OGG、LAC、MP4、M4A、AAC、およびその他の一般的なオーディオ形式をサポートします。言語選択のオプション、精度向上のためのフレーズヒント、不適切なフィルター処理、詳細または単純な出力形式が含まれています。

音声合成 (テキスト読み上げ) ニューラルテキスト読み上げ音声を使用して、テキスト入力を自然な音声のオーディオファイルに変換します。複数の言語と音声 ( en-US-JennyNeural や en-GB-SoniaNeuralなど) をサポートし、WAV、MP3、またはその他の形式で出力を生成します。

能力	説明
音声テキスト変換 (Recognize)	高度な音声認識を使用して、オーディオファイルをテキストに変換します。 WAV、MP3、OGG、LAC、MP4、M4A、AAC、およびその他の一般的なオーディオ形式をサポートします。言語選択のオプション、精度向上のためのフレーズヒント、不適切なフィルター処理、詳細または単純な出力形式が含まれています。
音声合成 (テキスト読み上げ)	ニューラルテキスト読み上げ音声を使用して、テキスト入力を自然な音声のオーディオファイルに変換します。複数の言語と音声 ( `en-US-JennyNeural` や `en-GB-SoniaNeural`など) をサポートし、WAV、MP3、またはその他の形式で出力を生成します。

Speech MCP サーバーをエージェントに接続すると、エージェントは使用可能な音声ツールとその説明を受け取ります。エージェントは、ユーザーのプロンプトに基づいて、呼び出すツールを決定します。たとえば、ユーザーが "このオーディオファイルを文字起こし" と言った場合、エージェントは音声テキスト変換ツールを呼び出します。ユーザーが "このテキストから音声を生成する" と言った場合、エージェントはテキスト読み上げツールを呼び出します。

エージェントがツールを選択する方法

ツールの選択プロセスは次のように動作します。

ユーザーがエージェントにプロンプトを送信します。
エージェントはプロンプトを分析し、実行する必要がある音声タスクを決定します。
エージェントは、使用可能な MCP ツールとその説明をチェックして、最適な一致を見つけます。
エージェントは、選択したツールを MCP サーバーを介して呼び出し、関連する入力 (オーディオファイルの URL またはテキスト) を渡します。
MCP サーバーは、Azure Speech を使用して要求を処理し、結果 (文字起こしされたテキストまたはオーディオファイルへのリンク) を返します。
エージェントは、自然言語の応答で結果をユーザーに提示します。

エージェントはツールの選択を自律的に処理するため、プロンプトで音声テキスト変換とテキスト読み上げのどちらを必要とするかを判断するためにルーティングロジックを記述する必要はありません。

ストレージの要件

テキストのみの MCP ツールとは異なり、Azure Speech MCP サーバーは、 Azure Storage アカウントを必要とするオーディオファイルで動作します。

テキスト読み上げ: Speech MCP サーバーは、生成されたオーディオファイルを Azure Blob Storage コンテナーに保存します。エージェントの応答には、生成されたオーディオファイルへのリンクが含まれています。
音声テキスト変換: エージェントは、パブリックにアクセスできる URL または SAS URL でアクセスされた Azure Blob Storage コンテナーからオーディオファイルを文字起こしできます。

Speech MCP サーバーをエージェントに接続するときに、BLOB コンテナーの SAS URL を 指定します。 SAS URL は、そのコンテナー内のファイルの読み取りと書き込みを行う MCP サーバーのアクセス許可を付与します。

Important

SAS URL をシークレットとして扱います。実用的な最短の有効期限を使用し、スコープを 1 つのコンテナーに設定し、ソースコード、エージェントプロンプト、チャットトランスクリプトに埋め込まない。

前提条件

エージェントで Azure Speech MCP サーバーを使用するには、次のものが必要です。

Azure サブスクリプション。
Foundry リソースとプロジェクト — リソースグループに対する共同作成者ロールまたは所有者ロールが必要です。 Foundry リソースには音声機能が含まれています。
オーディオファイルを格納するための BLOB コンテナーを持つ Azure Storage アカウント 。
読み取り、書き込み、追加、作成、および一覧表示のアクセス許可が付与された BLOB コンテナーの SAS URL。

セキュリティに関する考慮事項

Azure Speech MCP サーバーでは、キーベースの認証が使用されます。接続を作成するときに、リソースキーと BLOB コンテナーの SAS URL を指定します。次のベストプラクティスに従ってください。

セキュリティで保護されたシークレットストアにキーと SAS URL を格納し、定期的にローテーションします。
ソースコード、スクリプト、またはドキュメントにキーまたは SAS URL を直接埋め込むのは避けてください。
最短の実用的な SAS 有効期限を使用し、必要な最小限のリソースにスコープを設定します。
それらが公開されていることが疑われる場合は、すぐにキーをローテーションします。

フィードバック

このページはお役に立ちましたか?