An Efficient Self-Learning Framework For Interactive Spoken Dialog Systems

要約

音声アシスタントなどの対話システムは、複雑で進化する会話にユーザーと関わることが期待されています。
残念ながら、このようなアプリケーションに導入されている従来の自動音声認識 (ASR) システムは、通常、各ターンを個別に認識するようにトレーニングされており、会話のコンテキストに適応したり、ユーザーのフィードバックを組み込んだりする機能がありません。
この研究では、対話システムにおける ASR の一般的なフレームワークを紹介します。このフレームワークは、シングルターンの発話からの学習を超えて、マルチターンの会話に存在する明示的な監視と暗黙的なユーザー フィードバックの両方に適応する方法を時間をかけて学習できます。
私たちは、生徒と教師の学習とコンテキストを認識した対話処理の進歩を活用し、新しいオンライン ハードネガティブ マイニング アプローチである Ohm を使用した対照的な自己監視アプローチを設計することで、これを実現します。
従来のトレーニングと比較して新しいフレームワークを活用すると、実世界の対話システムでは相対的に WER が 10% 近く削減され、公開合成データでは最大 26% 削減されることがわかりました。

要約(オリジナル)

Dialog systems, such as voice assistants, are expected to engage with users in complex, evolving conversations. Unfortunately, traditional automatic speech recognition (ASR) systems deployed in such applications are usually trained to recognize each turn independently and lack the ability to adapt to the conversational context or incorporate user feedback. In this work, we introduce a general framework for ASR in dialog systems that can go beyond learning from single-turn utterances and learn over time how to adapt to both explicit supervision and implicit user feedback present in multi-turn conversations. We accomplish that by leveraging advances in student-teacher learning and context-aware dialog processing, and designing contrastive self-supervision approaches with Ohm, a new online hard-negative mining approach. We show that leveraging our new framework compared to traditional training leads to relative WER reductions of close to 10% in real-world dialog systems, and up to 26% on public synthetic data.

arxiv情報

著者 Hitesh Tulsiani,David M. Chan,Shalini Ghosh,Garima Lalwani,Prabhat Pandey,Ankish Bansal,Sri Garimella,Ariya Rastrow,Björn Hoffmeister
発行日 2024-09-16 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク