WavReward: Spoken Dialogue Models With Generalist Reward Evaluators

要約

GPT-4O-Audioなどのエンドツーエンドの音声対話モデルは、最近、音声領域で大きな注目を集めています。
ただし、話し言葉モデルの会話パフォーマンスの評価は、ほとんど見落とされています。
これは主に、ChatGPTなどのテキストベースの言語モデルを使用して簡単に測定できない非テキスト情報を豊富に伝えるインテリジェントなチャットボットによるものです。
このギャップに対処するために、音声入力を使用して音声ダイアログシステムのIQとEQの両方を評価できるオーディオ言語モデルに基づく報酬フィードバックモデルであるWavrewardを提案します。
具体的には、1)オーディオ言語モデルに基づいて、Wavrewardには、トレーニング後の深い推論プロセスと非線形報酬メカニズムが組み込まれています。
補強学習アルゴリズムを介してマルチサンプルフィードバックを利用することにより、話し言葉モデルに合わせた特殊な評価者を構築します。
2)Wavrewardのトレーニングに使用される優先データセットであるChatreward-30Kを紹介します。
ChatReward-30Kには、話し言葉モデルの理解と生成の側面の両方が含まれています。
これらのシナリオには、テキストベースのチャット、9つの音響チャットの属性、暗黙のチャットなど、さまざまなタスクに至ります。
Wavrewardは、複数の音声ダイアログシナリオにわたって以前の最先端の評価モデルを上回り、QWEN2.5-OMNIについての客観的精度で55.1 $ \%$ $ $ $ 91.5 $ \%$から大幅に改善します。
主観的なA/Bテストでは、Wavrewardは83 $ \%$のマージンもリードしています。
包括的なアブレーション研究は、Wavrewardの各コンポーネントの必要性を確認しています。
すべてのデータとコードは、論文が受け入れられた後、https://github.com/jishengpeng/wavrewardで公開されます。

要約(オリジナル)

End-to-end spoken dialogue models such as GPT-4o-audio have recently garnered significant attention in the speech domain. However, the evaluation of spoken dialogue models’ conversational performance has largely been overlooked. This is primarily due to the intelligent chatbots convey a wealth of non-textual information which cannot be easily measured using text-based language models like ChatGPT. To address this gap, we propose WavReward, a reward feedback model based on audio language models that can evaluate both the IQ and EQ of spoken dialogue systems with speech input. Specifically, 1) based on audio language models, WavReward incorporates the deep reasoning process and the nonlinear reward mechanism for post-training. By utilizing multi-sample feedback via the reinforcement learning algorithm, we construct a specialized evaluator tailored to spoken dialogue models. 2) We introduce ChatReward-30K, a preference dataset used to train WavReward. ChatReward-30K includes both comprehension and generation aspects of spoken dialogue models. These scenarios span various tasks, such as text-based chats, nine acoustic attributes of instruction chats, and implicit chats. WavReward outperforms previous state-of-the-art evaluation models across multiple spoken dialogue scenarios, achieving a substantial improvement about Qwen2.5-Omni in objective accuracy from 55.1$\%$ to 91.5$\%$. In subjective A/B testing, WavReward also leads by a margin of 83$\%$. Comprehensive ablation studies confirm the necessity of each component of WavReward. All data and code will be publicly at https://github.com/jishengpeng/WavReward after the paper is accepted.

arxiv情報

著者 Shengpeng Ji,Tianle Liang,Yangzhuo Li,Jialong Zuo,Minghui Fang,Jinzheng He,Yifu Chen,Zhengqing Liu,Ziyue Jiang,Xize Cheng,Siqi Zheng,Jin Xu,Junyang Lin,Zhou Zhao
発行日 2025-05-14 16:54:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク