要約
会話アシスタントは、現実世界のさまざまなアプリケーションでますます普及しており、高度なマルチモーダル音声モデリングの必要性が浮き彫りになっています。
音声は自然なコミュニケーション手段として、話す速度やピッチなどのユーザー固有の豊富な特性をエンコードするため、効果的な対話には不可欠です。
私たちの取り組みでは、会話音声モデリングにおけるマルチモーダル理解を効率的に強化するためのデータ中心のカスタマイズ アプローチを導入しています。
私たちの貢献の中心となるのは、少量の音声データを利用する補助タスクの設計を含む、新しいマルチタスク学習パラダイムです。
私たちのアプローチは、オープンウェイト モデルのトレーニング データの 10% のみを使用して、Spoken-SQuAD ベンチマークで最先端のパフォーマンスを達成し、オーディオ中心の会話モデリングのための堅牢で効率的なフレームワークを確立します。
また、曖昧なユーザー要求と動的な評価入力を含むマルチターン音声対話のための最初のデータセットである ASK-QA も紹介します。
コードとデータは今後公開予定です。
要約(オリジナル)
Conversational assistants are increasingly popular across diverse real-world applications, highlighting the need for advanced multimodal speech modeling. Speech, as a natural mode of communication, encodes rich user-specific characteristics such as speaking rate and pitch, making it critical for effective interaction. Our work introduces a data-centric customization approach for efficiently enhancing multimodal understanding in conversational speech modeling. Central to our contributions is a novel multi-task learning paradigm that involves designing auxiliary tasks to utilize a small amount of speech data. Our approach achieves state-of-the-art performance on the Spoken-SQuAD benchmark, using only 10% of the training data with open-weight models, establishing a robust and efficient framework for audio-centric conversational modeling. We also introduce ASK-QA, the first dataset for multi-turn spoken dialogue with ambiguous user requests and dynamic evaluation inputs. Code and data forthcoming.
arxiv情報
著者 | Maximillian Chen,Ruoxi Sun,Sercan Ö. Arık |
発行日 | 2024-12-20 15:43:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google