はじめに

完了

Foundry Tools の Azure Speech には、AI アプリケーションに統合できる音声テキスト変換機能とテキスト読み上げ機能が用意されています。 これらの機能を使用すると、音声をテキストに文字起こしし、テキストから自然に聞こえる音声を合成できます。

これらの機能は Speech SDK または REST API を介して直接呼び出すことができますが、 Azure Speech Model Context Protocol (MCP) サーバーを介して AI エージェントで使用できるようにすることもできます。 このアプローチにより、エージェントはユーザーの自然言語要求に基づいて音声タスクを処理できます。音声操作ごとに特定のコードを記述する必要はありません。

たとえば、カスタマー サポートの呼び出しを処理する必要がある会社で働いているとします。 チームは、記録されたテキストの呼び出しを文字起こしして分析し、顧客に再生できる音声応答を生成する必要があります。 文字起こしと合成用に個別の統合を構築するのではなく、Azure Speech MCP サーバーを使用して 1 つのツール接続を介して両方のタスクを実行する AI エージェントを作成できます。

このモジュールでは、Azure Speech MCP サーバーのしくみ、Microsoft Foundry の AI エージェントに接続する方法、およびエージェントとプログラムで対話するクライアント アプリケーションを構築する方法について説明します。

Azure Speech MCP サーバーは現在パブリック プレビュー段階です。 このモジュールで説明されている詳細は変更される可能性があります。