音声の処理方法を選択する (プレビュー)

[この記事はプレリリースドキュメントであり、変更されることがあります]

会話制御を選択した後、音声エージェントは音声 アーキテクチャという別の決定を行う必要があります。

Important

これはプレビュー機能です。
プレビュー機能は運用環境での使用を想定しておらず、機能が制限されている可能性があります。これらの機能は追加使用条件の対象であり、公式リリース前にアクセス可能です。これにより、お客様は早期に利用し、フィードバックを提供することができます。

パターン 1: 基本的な音声モード

Speech > Text >NLU/NLU+>クラシックオーケストレーション> Speech

このパターンでは、呼び出し元の音声が最初に文字起こしされ、ダイアログフロー Copilot Studioテキストが処理されます。最後に、テキストが音声に変換されます。

このパターンは、次の場合に使用します。

完全にクラシックで決定論的なフローを使用している。
コストの最小化は非常に重要です。
カスタム音声またはニューラル音声が必要です。
音声認識をきめ細かく制御する必要があります。
DTMF の負荷の高いフローを使用しています。

トレードオフ

クラシックオーケストレーションでのみ機能します。
ハイブリッドオーケストレーションまたは生成オーケストレーションをサポートできません。
多言語と混合言語の入力をサポートすると、より多くの作業が必要になります。言語検出、言語固有のプロンプトと文法、音声テキスト変換 (STT) ロケールの設定、フォールバック処理が必要です。

Important

基本的な音声モードは、単なる "音声モデルの選択" ではありません。これは基本的にオーケストレーションを制限します。

パターン 2: ストリーミングモード

Speech > AI モデル > Speech

1 つの言語モデルがオーディオをエンドツーエンドで処理し、オーディオの入力と出力をネイティブに処理する音声アーキテクチャ。テキスト読み上げ (TTS) または音声認識 (STT) の段階が個別に設けられているわけではありません。モデルは、呼び出し元のオーディオストリームを直接受信し、合成されたオーディオ応答をリアルタイムで返します。

このアーキテクチャでは、緊密に統合されたリアルタイムモデルパイプラインを使用して、超低待機時間、自然な会話フロー、よりシンプルなデプロイを実現します。このアプローチは、適切にサポートされている言語や地域での大量の顧客との対話など、速度と自然な会話が最優先事項である場合に最適です。この方法では、使用可能な音声の数が限られており、カスタマイズオプションが制限されています。

主な利点: 待機時間が非常に短く、自然な会話のターンテイク。

このパターンは、次の場合に使用します。

会話の自然性と強化されたプロソディが最優先事項です。
ビジネスは、プレミアムな会話エクスペリエンスを望んでいます。
シームレスな言語切り替えを含め、多言語および混合言語入力の優れた処理が必要です。
コンテキストの理解 (トーン、意図、細やかなニュアンス) により、明示的な翻訳レイヤーへの依存が減少します。
エクスペリエンスでは、待機時間が短く、リアルタイムの応答性が不可欠です。
チームは、テスト、チューニング、評価、ガードレールに投資する準備ができています。

トレードオフ

カスタマイズポイントが少なくなります。
制限付き音声オプション。
プロンプトの品質に強く依存する。
価格とモデルの選択は、さらに重要です。
リアルタイム音声モデルでは、推論の深さが制限されます。また、複雑な推論のために、より容量の高いテキスト言語モデルオーケストレーションまたは特殊なエージェントを使用する柔軟性が低くなります。
リアルタイム音声モデルでの推論の深さは、テキスト言語モデルのオーケストレーションよりも比較的低くなります。後者では、必要に応じて使用可能な最も強力なモデルを柔軟に使用できます。

音声エージェントのベストプラクティスを確認する

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-04-27

音声の処理方法を選択する (プレビュー)

パターン 1: 基本的な音声モード

このパターンは、次の場合に使用します。

トレードオフ

パターン 2: ストリーミング モード

このパターンは、次の場合に使用します。

トレードオフ

フィードバック

その他のリソース

パターン 2: ストリーミングモード