[この記事はプレリリース ドキュメントであり、変更されることがあります]
会話制御を選択した後、音声エージェントは音声 アーキテクチャという別の決定を行う必要があります。
Important
- これはプレビュー機能です。
- プレビュー機能は運用環境での使用を想定しておらず、機能が制限されている可能性があります。 これらの機能は追加使用条件の対象であり、公式リリース前にアクセス可能です。これにより、お客様は早期に利用し、フィードバックを提供することができます。
パターン 1: 基本的な音声モード
Speech > Text >NLU/NLU+>クラシック オーケストレーション> Speech
このパターンでは、呼び出し元の音声が最初に文字起こしされ、ダイアログ フロー Copilot Studioテキストが処理されます。 最後に、テキストが音声に変換されます。
このパターンは、次の場合に使用します。
完全にクラシックで決定論的なフローを使用している。
コストの最小化は非常に重要です。
カスタム音声またはニューラル音声が必要です。
音声認識をきめ細かく制御する必要があります。
DTMF の負荷の高いフローを使用しています。
トレードオフ
クラシック オーケストレーションでのみ機能します。
ハイブリッドオーケストレーションまたは生成オーケストレーションをサポートできません。
多言語と混合言語の入力をサポートすると、より多くの作業が必要になります。 言語検出、言語固有のプロンプトと文法、音声テキスト変換 (STT) ロケールの設定、フォールバック処理が必要です。
Important
基本的な音声モードは、単なる "音声モデルの選択" ではありません。これは基本的にオーケストレーションを制限します。
パターン 2: ストリーミング モード
Speech > AI モデル > Speech
1 つの言語モデルがオーディオをエンドツーエンドで処理し、オーディオの入力と出力をネイティブに処理する音声アーキテクチャ。 テキスト読み上げ (TTS) または音声認識 (STT) の段階が個別に設けられているわけではありません。 モデルは、呼び出し元のオーディオ ストリームを直接受信し、合成されたオーディオ応答をリアルタイムで返します。
このアーキテクチャでは、緊密に統合されたリアルタイム モデル パイプラインを使用して、超低待機時間、自然な会話フロー、よりシンプルなデプロイを実現します。 このアプローチは、適切にサポートされている言語や地域での大量の顧客との対話など、速度と自然な会話が最優先事項である場合に最適です。 この方法では、使用可能な音声の数が限られており、カスタマイズ オプションが制限されています。
主な利点: 待機時間が非常に短く、自然な会話のターンテイク。
このパターンは、次の場合に使用します。
会話の自然性と強化されたプロソディが最優先事項です。
ビジネスは、プレミアムな会話エクスペリエンスを望んでいます。
シームレスな言語切り替えを含め、多言語および混合言語入力の優れた処理が必要です。
コンテキストの理解 (トーン、意図、細やかなニュアンス) により、明示的な翻訳レイヤーへの依存が減少します。
エクスペリエンスでは、待機時間が短く、リアルタイムの応答性が不可欠です。
チームは、テスト、チューニング、評価、ガードレールに投資する準備ができています。
トレードオフ
カスタマイズ ポイントが少なくなります。
制限付き音声オプション。
プロンプトの品質に強く依存する。
価格とモデルの選択は、さらに重要です。
リアルタイム音声モデルでは、推論の深さが制限されます。 また、複雑な推論のために、より容量の高いテキスト言語モデルオーケストレーションまたは特殊なエージェントを使用する柔軟性が低くなります。
リアルタイム音声モデルでの推論の深さは、テキスト言語モデルのオーケストレーションよりも比較的低くなります。後者では、必要に応じて使用可能な最も強力なモデルを柔軟に使用できます。