Enhancing Dialogue Speech Recognition with Robust Contextual Awareness via Noise Representation Learning

要約

最近の対話システムはターンベースの音声対話に依存しており、正確な自動音声認識 (ASR) が必要です。
ASR のエラーは、下流の対話タスクに大きな影響を与える可能性があります。
これに対処するために、ユーザーとエージェントの対話からの対話コンテキストを使用して、後続の発話を文字に起こすことが提案されています。
この方法では、各ターンで生成された蓄積されたコンテキストを使用して、ユーザーの音声とエージェントの応答の書き起こしがモデル入力として組み込まれます。
ただし、このコンテキストは ASR モデルによって自己回帰方式で生成されるため、ASR エラーの影響を受けやすくなります。
このようなノイズの多いコンテキストは、コンテキスト入力の利点をさらに低下させ、ASR パフォーマンスが最適ではなくなる可能性があります。
この論文では、ノイズの多いコンテキストに対する堅牢性を強化し、最終的に対話音声認識の精度を向上させるために、コンテキスト ノイズ表現学習 (CNRL) を導入します。
コンテキスト認識の利点を最大化するために、私たちのアプローチには、テキストベースの対話データを使用したデコーダーの事前トレーニングとコンテキスト エンコーダーのノイズ表現学習が含まれています。
音声対話の評価に基づいて、私たちの方法はベースラインと比較して優れた結果を示しています。
さらに、私たちのアプローチの強みは、現実世界の騒音のためにユーザーの音声がほとんど聞こえないような騒がしい環境で強調され、コンテキスト情報に依存して入力を正確に転写します。

要約(オリジナル)

Recent dialogue systems rely on turn-based spoken interactions, requiring accurate Automatic Speech Recognition (ASR). Errors in ASR can significantly impact downstream dialogue tasks. To address this, using dialogue context from user and agent interactions for transcribing subsequent utterances has been proposed. This method incorporates the transcription of the user’s speech and the agent’s response as model input, using the accumulated context generated by each turn. However, this context is susceptible to ASR errors because it is generated by the ASR model in an auto-regressive fashion. Such noisy context can further degrade the benefits of context input, resulting in suboptimal ASR performance. In this paper, we introduce Context Noise Representation Learning (CNRL) to enhance robustness against noisy context, ultimately improving dialogue speech recognition accuracy. To maximize the advantage of context awareness, our approach includes decoder pre-training using text-based dialogue data and noise representation learning for a context encoder. Based on the evaluation of speech dialogues, our method shows superior results compared to baselines. Furthermore, the strength of our approach is highlighted in noisy environments where user speech is barely audible due to real-world noise, relying on contextual information to transcribe the input accurately.

arxiv情報

著者 Wonjun Lee,San Kim,Gary Geunbae Lee
発行日 2024-08-12 10:21:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク