透明性に関する注意: 制約付き音声認識

透過性のためのメモとは

AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、それが展開される環境も含まれています。 意図した用途に合ったシステムを作成するには、テクノロジがどのように機能するか、その機能と制限事項は何か、どのように最適なパフォーマンスを実現するかを理解する必要があります。 Microsoft の透明性に関するメモは、AI テクノロジのしくみ、システム所有者がシステムのパフォーマンスと動作に影響を与える可能性のある選択肢、およびテクノロジ、ユーザー、環境を含むシステム全体について考えることの重要性を理解するのに役立ちます。 独自のシステムを開発または展開するときに Transparency Notes を使用したり、システムを使用するユーザーやシステムの影響を受けるユーザーと共有したりできます。

Microsoft の透明性に関するメモは、AI の原則を実践するための Microsoft の広範な取り組みの一環です。 詳細については、 Microsoft AI の原則を参照してください

制約付き音声認識の基本

イントロダクション

音声認識は、音声対応 AI システムと連携するための重要な機能です。 これらのシステム ("音声テキスト変換" エンジンとも呼ばれます) は、ユーザーの話し言葉をテキストに変換し、多くの場合、出力の正確性の確率を示す信頼度スコアを生成します。 制約付き音声認識は、エンジン自体で認識できる単語または語句のセットを具体的に制限する特定のモダリティです。 この制約は、文法によって行われます。 文法は、定義上、エンジンが認識するために必要な単語または語句のルールベースのリストです。

制約付き音声認識エンジンは、次の場合に特に役立ちます。

  • アカウント番号や追跡番号などの英数字入力の認識。

  • ドメイン固有の大規模なリスト (株式、住所、名前)。

  • 認識する単語や語句の小さなセットとの対話用に設計された、スコープが小さいアプリケーション。

  • 呼び出し元の最初の操作に使用されるか、システムの会話設計の基礎として使用される項目のメニュー ツリー内を移動するのに役立つ指示ダイアログ。

キーワード

任期 Definition
構文 文法は、音声認識エンジンが理解して解釈する単語と語句の説明です。 認識エンジンは実行時に文法を読み込み、ユーザーの音声応答とコマンドを音声アプリケーションで使用できる情報に変換します。
GrXML 文法を構成する形式。
音声認識文法仕様 (SRGS) 文法を定義するための W3C 標準。
発話 音声認識システムが解釈する音声 AI システムへのユーザーからの話し言葉またはフレーズ。

能力

システムの動作

認識エンジンは、ユーザーの発話を解釈するたびに、可能な限り最も近い一致のリストをコンパイルして、音声アプリケーションに戻ります。 このリストは、ユーザーが言ったように見えるものに最も一致する解釈の事前指定された数nで構成されているため、n-best l istとして呼び出されます。 ユーザーが話すと、認識エンジンは文法で定義されている項目の中で最も一致するものを検索します。 認識エンジンは、n 個の最適なリストについて検討されている候補に、一致する各解釈を追加します。 検索中、認識エンジンは音響モデルを使用してオーディオ入力を分析し、構文モデルは文法で最も可能性の高い文を決定し、セマンティック モデルは呼び出し元が言ったことの最も可能性の高い意味を決定します。 認識エンジンは、可能な限り最高の解釈が見つかるまで、または残りの項目が聞こえるものと一致しないまで検索します。

認識エンジンは、候補リストの各項目に信頼度スコアを割り当て、最も高い信頼度から最も低い項目にランク付けします。 認識エンジンは、新しい解釈が見つかると、これらのスコアを再評価し、微調整します。 文法で同義語 (同じように聞こえるが意味が異なる単語) が許可され、1 つの単語が読み上げられる場合、認識エンジンは同一の信頼度スコアで解釈を分離するように同義語を割り当てます。 認識エンジンは、文法で指定された制約リストやセマンティック解釈スクリプト (ECMAScript) を処理することで、候補リストを絞り込みます。 認識エンジンは、認識用に構成されたターゲット信頼レベルを満たしていない解釈をすべて削除します。 認識エンジンは、最終的な上位 n 個の結果をアプリケーションに返します。 この n-best リストには、一致したテキスト (発話全体と個々のスロット)、信頼度スコア、発話に設定されたキーと値が含まれます。

活用事例

目的に合った用途

制約付き音声認識は、複数のシナリオで使用できます。 システムの用途は次のとおりです。

  • 話し言葉を認識する: "文法" を介してシステムに提供される明確なリストによって制約されたテキストに音声を翻訳します。 たとえば、英数字のライセンス プレートや社会保障番号の入力やリストベースの企業ディレクトリ、株式ティッカー、住所などです。

  • 入力を検証する: 読み上げられた内容がシステムによって受け入れられることを検証します。 たとえば、クレジット カード番号が正しいことを (数学的に) 検証します。

  • 出力候補を削除する: 繰り返し認識を試行したときに、認識から単語または語句を削除します。

その他のユース ケースを選択する際の考慮事項

お客様には、革新的なソリューションやアプリケーションで制限付き音声認識を使用することをお勧めします。 ただし、以下にユース ケース選択時の考慮事項をいくつか示します。

  • 開示: AI エージェントの作成と一貫性があり、常に、対話しているシステムが AI を利用していることを呼び出し元に開示します。

  • サポートされていない用途:

    • バッチ文字起こし: 人の話し言葉を完全なテキスト文字起こしに完全に文字起こしします。

    • 意図の解釈: 文字起こしではなく、ユーザーの話された単語を解釈された意図にマッピングします。

  • 法的および規制上の考慮事項: 組織は、AI サービスとソリューションを使用する際に、潜在的な特定の法的義務と規制上の義務を評価する必要があります。これは、すべての業界やシナリオでの使用には適していない可能性があります。 制限は、地域または地域の規制要件によって異なる場合があります。 さらに、AI サービスまたはソリューションは、該当するサービス条件および関連する行動規範で禁止されている方法で設計されておらず、使用されない場合があります。

制限事項

前述のように、制約付き音声認識は、英数字やリストベースの認識タスクなどの特定のユース ケースに対して非常に優れたパフォーマンスを発揮します。このタスクでは、情報がユーザーから明示的、正確、制限されています。 これに対し、セマンティック ベースまたは自然言語の理解モデルを使用する従来の音声テキスト変換システムは、幅広い話し言葉のトピックを認識し、モデルの前後で解釈する場合に最適です。 明示的に入力すると、文法の定義外にある音声入力は認識されません。 したがって、開発者が音声ベースのアプリケーションを構築して、制約付き音声と代替方法を使用するのが適切な場所を検討することは推奨されません。

技術的な制限事項、運用上の要因、範囲

制約付き音声認識を正確に機能させるには、適切に設計された文法でさまざまなユーザー応答を受け入れ、それらを迅速、正確、効率的に解釈できる必要があります。 つまり、開発者は、各アプリケーション プロンプトで生成される応答を予測し、できるだけ効率的に文法でエンコードできる必要があります。 これは、音声アプリケーションと並行して文法を設計する必要があることを意味します。

適切な文法では、次の目標のバランスが取られています。

  • 徹底したカバレッジ: 文法は、ユーザーからの適切な応答を受け入れて解釈し、前のアプリケーション プロンプトに解釈します。

  • 精度: 文法は応答を正しく認識するため、ユーザーは繰り返し要求されず、文法は正しくない値をメイン アプリケーションに渡しません。

  • 速度: 文法は、ユーザーをイライラさせる遅延なしで応答をすばやく認識します。

  • リソースの使用: 文法プロセスが効率的に行われます。

文法の記述は反復的なプロセスです。 呼び出し元の発言、実際のデータの収集、文法の調整、データの収集、文法の再調整などを行うために、最初の文法を作成します。 語句を追加および削除して文法を調整すると、呼び出し元がアプリケーションに話す方法に近くなります。 実際には、ユーザーの話し方を制御できないため、アプリケーションで発生する可能性のあるすべての応答を文法に含めることはできません。

一連の文法を開発するプロセスには、通常、次の手順が含まれます。

  1. 情報項目を識別し、スロットを定義します。ユーザーがアプリケーションに提供する必要がある情報は何ですか。また、指定する必要がある特定の順序はありますか?

  2. ダイアログを設計する: ユーザーとアプリケーションの間の最も効率的なダイアログ フローを決定します。

  3. プロンプトを設計する: 必要な情報を引き出すプロンプトを作成します。

  4. プロンプトに対する呼び出し元の応答を予測する: 文法で認識する必要がある話し言葉を検討してください。

  5. 文法の中核部分と入力者の部分を特定する: 応答で検索するキーワードを特定します。

  6. 文法戦略を計画する: 各文法の要件を満たす最適な方法を決定し、適切なアプローチまたはそれらに対処するためのアプローチの組み合わせを選択します。

  7. 文法の調整と調整: 問題を解決し、文法のパフォーマンスを最適化します。

システム パフォーマンス

制約付き音声認識エンジンは、要求の処理時に限られたメモリを使用して、音声認識の代替モダリティと比較してパフォーマンスが向上します。 開発者が制御する要素は、システム自体よりもパフォーマンスに大きく影響します。 文法開発の最も重要な目的は、最適な認識精度を設計することです。 次の目標は、明確さ、保守容易性、拡張性のために記述することです。 3 番目の目標は、効率的な認識コンテキストを作成することです。

システム パフォーマンスを向上させるためのベスト プラクティス

リソースの使用状況に影響を与える文法の特性を次に示します。

  • カバレッジ: 文法では、呼び出し元が使用すると予想される語句が含まれます。 カバレッジが不足すると、ボキャブラリ外の発話、確認、再試行が増加し、CPU 使用率、通話時間、呼び出し元の満足度が低下します。

  • 過剰生成: 文法では、無意味な語句を許可することで過剰に生成されないことが重要です。これにより、精度が低下します。 たとえば、都市と州を認識する文法では、発話を都市と州の有効な組み合わせに制限する必要があります。

  • 複数の解析: 理想的には、文法内で可能な各文に一意の解析があります。 文法で 1 つの文を 複数解析 できる場合があります。 通常、複数の解析は、修正が必要な文法の設計における見落としを示します。

  • アプリケーションに渡されるキー: キーと値のペアが正しく設定されていることを確認する必要があります。

呼び出し元が文法で解析できない単語または語句を言うと、その単語または語句は文法外であると言われます。 経験則として、5% の文法外率は許容可能と見なされます。 場合によっては、文法外率が 10 ~ 20% であっても、特定の種類の認識タスクでは珍しくありません。 後者の速度で、代替形式の音声認識を使用することを検討してください。

待機時間 は、認識結果がアプリケーションに返されるまで、呼び出し元が読み上げを停止した後の経過時間 (構成された音声の終了タイムアウトを含む) として定義されます。 待機時間が長すぎると、ユーザー エクスペリエンスが低下します。システムが遅いように見えます, これは、ユーザーに不満を持つ可能性があり、さらなるユーザーインターフェイスの合併症につながります.

極端な状況では、ユーザーが会話の目標を達成せずに話を停止すると、待機時間が長くなり、アプリケーション トランザクションが失敗します。 認識応答時間が低いと、多くの要因が影響を受けます。

  • 何十万もの項目を含む非常に大規模な文法の使用。

  • 発話の平均の長さが非常に長い。

  • 文法内での ECMAScript 処理の量が多い。

  • 文法をフェッチするときのネットワーク遅延。

さまざまなフレーズを話すテスト シナリオの実行など、ライブ実行中のシステム内に文法をデプロイする前に、文法を適切にテストしてください。

制約付き音声認識の評価

評価方法

制約付き音声認識を評価するために一般的に使用されるメトリックには、次のようなものがあります。

  • 単語エラー率 (WER): 誤って認識された単語の割合を測定します。 これは、置換、削除、挿入の合計を、参照内の単語の合計数で割った値として計算されます。

  • N-best リストの精度: 認識エンジンによって生成された上位 N 個の仮説の精度が評価されます。 これは、正しい解釈が最も多い提案の中にある頻度を理解するのに役立ちます。

  • カバレッジ: このメトリックは、文法に、ユーザーが言う可能性のあるすべての必要なフレーズとバリエーションが含まれているかどうかを評価します。 適切なカバレッジを持つ文法により、システムは幅広い入力を処理できます。

  • 待機時間: システムが読み上げられた入力を処理し、認識結果を生成するのにかかる時間を測定します。 待機時間の短縮は、リアルタイム アプリケーションにとって非常に重要です。

  • 誤検知/拒否率: 誤検知を測定し、システムエクスペリエンスを否定します。 これは、連絡先センターのシナリオの呼び出し元の封じ込めとアプリケーションの成功率に直接影響します。

公平性に関する考慮事項

Microsoft では、地球上のすべての人がより多くのことを行うことを支援するよう努めています。 この目標の重要な部分は、公平で包括的なテクノロジと製品の作成に取り組んでいます。 公平性は多次元の社会技術のトピックであり、製品開発のさまざまな側面に影響を与えます。 公平性に対する Microsoft のアプローチの詳細を確認できます。

制約付き音声認識を含む AI システムを使用する際に考慮すべき重要なディメンションの 1 つは、システムがさまざまなグループのユーザーに対してどの程度適切に実行されるかです。 調査によると、すべてのグループのパフォーマンスの向上に重点を置いた意識的な取り組みがなければ、AI システムは、人種、民族性、性別、年齢など、さまざまな人口統計要因にわたってさまざまなレベルのパフォーマンスを示すことができます。

場合によっては、パフォーマンスの差異が残っている可能性があります。 これらの不一致が目標を超える可能性があることに注意することが重要であり、潜在的な偏りやパフォーマンスのギャップに対処し、最小限に抑え、アクターの人口統計グループの選択を慎重に検討し、さまざまな背景から多様な視点を求めることに積極的に取り組んでいます。

ステレオタイピング、軽蔑、消去などの表現上の損害については、これらの問題に関連するリスクを認識します。 評価プロセスではこのようなリスクを軽減することを目的としていますが、ユーザーは特定のユース ケースを慎重に検討し、必要に応じて追加の軽減策を実装することをお勧めします。 人間をループ内に入れると、潜在的なバイアスや意図しない結果に対処するための監視の追加レイヤーが提供される可能性があります。

私たちは、さまざまな人口統計グループ全体のシステムのパフォーマンスと潜在的な公平性の懸念をより深く理解するために、公平性評価を継続的に改善することに取り組んでいます。 評価プロセスは進行中であり、公平性と包摂性を強化し、特定された差異を軽減するために積極的に取り組んでいます。 私たちは、公平性に関する考慮事項に対処することの重要性を理解し、制約付き音声認識が信頼性の高い公平な音声認識出力を提供するように努めています。

この情報は、公平性評価に関してこれまでに知っていることを表しており、評価手法を改善し、発生する可能性のある公平性の懸念に対処することに専念しています。

責任ある AI の詳細を確認する

Microsoft の AI の原則
Microsoft の責任ある AI リソース
責任ある AI に関する Microsoft Azure 学習コース

制約付き音声認識の詳細

外部の音声文法を使用する