音声の処理方法を選択する (プレビュー)

[この記事はプレリリース ドキュメントであり、変更されることがあります]

会話制御を選択した後、音声エージェントは音声 アーキテクチャという別の決定を行う必要があります。

Important

  • これはプレビュー機能です。
  • プレビュー機能は運用環境での使用を想定しておらず、機能が制限されている可能性があります。 これらの機能は追加使用条件の対象であり、公式リリース前にアクセス可能です。これにより、お客様は早期に利用し、フィードバックを提供することができます。

パターン 1: 基本的な音声モード

Speech > Text >NLU/NLU+>クラシック オーケストレーション> Speech

このパターンでは、呼び出し元の音声が最初に文字起こしされ、ダイアログ フロー Copilot Studioテキストが処理されます。 最後に、テキストが音声に変換されます。

このパターンは、次の場合に使用します。

  • 完全にクラシックで決定論的なフローを使用している。

  • コストの最小化は非常に重要です。

  • カスタム音声またはニューラル音声が必要です。

  • 音声認識をきめ細かく制御する必要があります。

  • DTMF の負荷の高いフローを使用しています。

トレードオフ

  • クラシック オーケストレーションでのみ機能します。

  • ハイブリッドオーケストレーションまたは生成オーケストレーションをサポートできません。

  • 多言語と混合言語の入力をサポートすると、より多くの作業が必要になります。 言語検出、言語固有のプロンプトと文法、音声テキスト変換 (STT) ロケールの設定、フォールバック処理が必要です。

Important

基本的な音声モードは、単なる "音声モデルの選択" ではありません。これは基本的にオーケストレーションを制限します。

パターン 2: ストリーミング モード

Speech > AI モデル > Speech

1 つの言語モデルがオーディオをエンドツーエンドで処理し、オーディオの入力と出力をネイティブに処理する音声アーキテクチャ。 テキスト読み上げ (TTS) または音声認識 (STT) の段階が個別に設けられているわけではありません。 モデルは、呼び出し元のオーディオ ストリームを直接受信し、合成されたオーディオ応答をリアルタイムで返します。

このアーキテクチャでは、緊密に統合されたリアルタイム モデル パイプラインを使用して、超低待機時間、自然な会話フロー、よりシンプルなデプロイを実現します。 このアプローチは、適切にサポートされている言語や地域での大量の顧客との対話など、速度と自然な会話が最優先事項である場合に最適です。 この方法では、使用可能な音声の数が限られており、カスタマイズ オプションが制限されています。

主な利点: 待機時間が非常に短く、自然な会話のターンテイク。

このパターンは、次の場合に使用します。

  • 会話の自然性と強化されたプロソディが最優先事項です。

  • ビジネスは、プレミアムな会話エクスペリエンスを望んでいます。

  • シームレスな言語切り替えを含め、多言語および混合言語入力の優れた処理が必要です。

  • コンテキストの理解 (トーン、意図、細やかなニュアンス) により、明示的な翻訳レイヤーへの依存が減少します。

  • エクスペリエンスでは、待機時間が短く、リアルタイムの応答性が不可欠です。

  • チームは、テスト、チューニング、評価、ガードレールに投資する準備ができています。

トレードオフ

  • カスタマイズ ポイントが少なくなります。

  • 制限付き音声オプション。

  • プロンプトの品質に強く依存する。

  • 価格とモデルの選択は、さらに重要です。

  • リアルタイム音声モデルでは、推論の深さが制限されます。 また、複雑な推論のために、より容量の高いテキスト言語モデルオーケストレーションまたは特殊なエージェントを使用する柔軟性が低くなります。

  • リアルタイム音声モデルでの推論の深さは、テキスト言語モデルのオーケストレーションよりも比較的低くなります。後者では、必要に応じて使用可能な最も強力なモデルを柔軟に使用できます。