音声対応エージェントの作成

完了

Tip

詳細については、「 テキストと画像 」タブを参照してください。

AI エージェント は、情報を理解し、意思決定を行い、ユーザーが特定の目標を達成できるように自分でアクションを実行できるソフトウェア プログラムです。 AI エージェントの一般的な目標は、人間と同じようにリアルタイムの会話を行えるようにすることです。

音声読み上 げは、アプリケーションが音声オーディオを入力として受け取り、ユーザーにテキストの読み取りや入力を要求することなく、音声オーディオを出力として生成できるようにする機能です。 ユーザー エクスペリエンスは、自然な音声会話のように感じます。

音声間翻訳では、システムで次のことが可能になります。

  • 話している人の話を聞く
  • 言われた内容を理解または変換する
  • 合成音声で応答する

音声読み上げでは、音声テキスト変換とテキスト読み上げが 1 つの会話エクスペリエンスに組み合わされます。 音声読み上げは、音声機能と言語機能のパイプラインとして構築されています。 パイプラインが完了します。

  1. 音声テキスト変換: ユーザーの音声をテキストに変換します。
  2. 処理または推論: テキストの分析、翻訳、要約、または AI エージェントが次に何を言うかを決定するために使用します。
  3. テキスト読み上げ: 応答テキストを音声に変換します。

一般的な音声間シナリオは次のとおりです。

  • 音声アシスタントと AI エージェント: ユーザーはエージェントと話し、話された応答を聞きます。
  • 音声翻訳: ユーザーが 1 つの言語で話し、別の言語で応答を読み上げる。
  • ハンズフリー アプリケーション: 入力が実用的でないナビゲーション システム、キオスク、または産業用ツール。
  • アクセシビリティ: 音声入力と出力を好む、または必要とするユーザー向けの音声ベースの操作。
  • カスタマー サポート ボット: 呼び出し元は自然に話し、話された回答を受け取ります。

Azure Speech - ボイスライブ

Azure Speech には VoiceLive Service が含まれており、会話エージェントを簡単に構築できます。 Voice Live API を使用すると、アプリケーションでリアルタイムの音声会話を行うことができます。 音声エージェントは、話している人の話しを聞き、話された音声で迅速かつ自然に応答できます。

音声テキスト変換、AI 推論、テキスト読み上げなど、さまざまな部分を構築して接続する代わりに、Voice Live API は、すべてを 1 つのサービスに結合します。 Voice Live API を使用すると、開発者は音声ベースのエクスペリエンスを簡単かつ迅速に作成できます。

Azure、VoiceLive を完全に管理します。つまり、バックエンド システムを自分で設定したり維持したりする必要はありません。 VoiceLive にオーディオを送信すると、音声応答が返されます。 VoiceLive は、アバターなどのビジュアルを返し、必要に応じてアクションをトリガーすることもできます。 Azureはバックグラウンドでモデルとインフラストラクチャを処理するため、音声エクスペリエンスの構築に集中できます。

Azure音声読み上げソリューションでは、次の機能を利用します。

  • Azure Speech 音声変換機能とテキスト読み上げ機能を提供します。
  • 応答に関する決定を行うエージェントまたはアプリケーション ロジック
  • エージェントが SDK や API を直接管理しないように、音声を呼び出し可能なツールとして公開できる Foundry Tools または MCP サーバー

Foundry ポータルのプレイグラウンドで Voice Live を探索できます。 Foundry プレイグラウンドには、試すことができる事前構成済みの音声サンプルがいくつか含まれています。また、独自の新しいソリューションを作成することもできます。 ソリューションを作成するときは、重要なことに、エージェントが使用する生成 AI モデルを選択する必要があります。 Azure Speech Voice Live では、生成 AI モデル alongside 独自の音響モデルを使用して、ユーザーとのライブ会話を行います。 プレイグラウンドで多くの設定を構成できます。 たとえば、プロアクティブ エンゲージメントを有効にして、エージェントが会話を開始できるようにします。

Foundry プレイグラウンドでの音声ライブのスクリーンショット。

また、プレイグラウンド内の Microsoft Foundry エージェントに対して Voice モード を有効にすることもできます。これは、Azure Speech Voice Live をエージェント定義に統合します。 この方法は、音声構成がエージェント自体にカプセル化され、それを使用するために必要なクライアント コードを減らすことを意味します。

音声対応エージェントのスクリーンショット。

アプリケーションでの Voice Live の使用

エージェントを使用するカスタム アプリを開発するには、コードを記述する必要があります。 Pythonでアプリケーションを作成するには、azure-ai-voicelive パッケージが必要です。

パッケージは、次を使用して Visual Studio Code terminal にインストールできます。

pip install azure-ai-voicelive

また、Voice Live アプリケーションを実行するには、 pyaudiopython-dotenv、および azure-identity をインストールする必要があります。

Foundry ポータルで音声読み上げアプリケーションのサンプル コードを見つけることができます。 このサンプル コードでは、セッションの開始、マイクやスピーカーなどのオーディオ デバイスへの接続、オーディオの受信ストリームと発信ストリームの処理、中断の処理などを行うために必要なすべてのロジックを処理します。 サンプル コードは、独自のアプリケーションを構築するための出発点として適しています。

Foundry プレイグラウンドのサンプル コードでの音声ライブのスクリーンショット。

サンプル コードを独自のコード エディターに取り込み、適切なパッケージをインストールできます。 アプリケーションを実行すると、リアルタイムの音声アシスタントがマイクオーディオを音声ライブAzureストリーミングし、アシスタントの音声応答を受け取り、スピーカーを介して再生します。

VoiceLive Python スクリプトの結果のスクリーンショット。

Azure Speech の Voice Live は、ユーザーと自然に関わる音声対応の会話エージェントを構築するための効果的な方法を提供します。 次に、Azure Speech - Voice Live in Foundry を自分で試してみてください。