イントロダクション

完了

AI 音声 機能を使用すると、音声命令を使用したシステムの管理、話された質問に対するコンピューターからの回答の取得、オーディオからのキャプションの生成などを行うことができます。 音声ベースのインターフェイスは、AI ソフトウェアに関わるより自然な方法を提供します。 音声言語を介して対話する機能により、アプリケーションとエージェントのアクセシビリティと包括性を高めることができます。

このような対話を可能にするには、AI システムで少なくとも 2 つの機能がサポートされている必要があります。

  • 音声認識: 音声入力を検出して解釈する機能
  • 音声合成: 音声出力を生成する機能

これらの機能の例を次に示します。

  • 医療における臨床ディクテーションとメモ取り:医師は、予約中または予約後に患者のメモを声に出して言うことができます。 AI 音声アプリは、オーディオを正確な医療テキストに変換し、手動入力を減らし、時間を節約します。

  • カスタマー サポートでの通話の文字起こし: コンタクト センターは顧客の通話をリアルタイムで文字起こしし、会話のレビュー、問題の検出、センチメントの分析を容易にします。

  • メディアとエンターテイメントの自動キャプション: ビデオ プラットフォームは、ショーやストリームのライブまたは録画されたキャプションを生成し、アクセシビリティを向上させ、多言語の対象ユーザーをサポートします。

  • 教育における言語学習と発音のフィードバック: 学習アプリは AI 音声機能を使用して学生の話しを聞き、発音フィードバックを提供し、学習者が話す言語スキルの練習と向上を支援します。

  • 小売および e コマースの音声対応アシスタント: 仮想ショッピング アシスタントは音声認識を使用して、話された顧客の要求を理解し、テキスト読み上げで製品情報や注文状態で応答します。

Microsoft Foundry Tools の Azure Speech は、音声認識と合成を通じて、音声テキスト変換、テキスト読み上げ、音声翻訳の機能を提供します。 高い精度での音声からテキストへの文字起こしから、会話での話者の識別や、カスタム音声の作成まで、Azure Cognitive Service for Speech サービスの事前構築済みとカスタムのモデルを、さまざまなタスクに使用できます。 次に、Azure Speech を使用して音声認識をアプリケーションに組み込む方法について説明します。

私たちは、異なる人々が異なる方法で学ぶのが好きであることを認識しています。 このモジュールをビデオベースの形式で完了するか、コンテンツをテキストと画像として読み取ることができます。 テキストにはビデオよりも詳細な情報が含まれているため、ビデオ プレゼンテーションの補足資料として参照したい場合があります。