要約
マルチモーダル報酬モデル(MRM)は、マルチモーダル大規模言語モデル(MLLM)の性能を向上させる上で重要な役割を果たす。近年の進歩は、主にMRMのモデル構造と学習データの改善に焦点を当てているが、報酬モデリングのための長期的な推論能力の有効性や、MRMでこれらの能力を活性化する方法についての研究は限られている。本論文では、強化学習(RL)を報酬モデリングの改善にどのように利用できるかを探求する。具体的には、報酬モデリング問題をルールベースのRLタスクとして再定式化する。しかしながら、Reinforce++のような既存のRLアルゴリズムを報酬モデリングに直接適用すると、これらのアルゴリズムの本質的な限界により、しばしば学習が不安定になったり、破綻したりすることがある。この問題に対処するため、我々はStableReinforceアルゴリズムを提案し、既存のRL手法の訓練損失、優位性推定戦略、報酬設計を改良する。これらの改良により、より安定したトレーニングダイナミクスと優れた性能が得られる。MRMの学習を容易にするために、我々は多様なデータセットから20万件の嗜好データを収集する。このデータセットに対してStableReinforceアルゴリズムを用いて学習した我々の報酬モデルR1-Rewardは、マルチモーダル報酬モデリングベンチマークにおける性能を大幅に向上させた。従来のSOTAモデルと比較して、R1-Rewardは、VL Reward-Benchで$8.4%改善し、Multimodal Reward Benchで$14.3%改善した。さらに、推論計算量を増やすことで、R1-Rewardの性能はさらに向上し、MRMの最適化におけるRLアルゴリズムの可能性を浮き彫りにした。
要約(オリジナル)
Multimodal Reward Models (MRMs) play a crucial role in enhancing the performance of Multimodal Large Language Models (MLLMs). While recent advancements have primarily focused on improving the model structure and training data of MRMs, there has been limited exploration into the effectiveness of long-term reasoning capabilities for reward modeling and how to activate these capabilities in MRMs. In this paper, we explore how Reinforcement Learning (RL) can be used to improve reward modeling. Specifically, we reformulate the reward modeling problem as a rule-based RL task. However, we observe that directly applying existing RL algorithms, such as Reinforce++, to reward modeling often leads to training instability or even collapse due to the inherent limitations of these algorithms. To address this issue, we propose the StableReinforce algorithm, which refines the training loss, advantage estimation strategy, and reward design of existing RL methods. These refinements result in more stable training dynamics and superior performance. To facilitate MRM training, we collect 200K preference data from diverse datasets. Our reward model, R1-Reward, trained using the StableReinforce algorithm on this dataset, significantly improves performance on multimodal reward modeling benchmarks. Compared to previous SOTA models, R1-Reward achieves a $8.4\%$ improvement on the VL Reward-Bench and a $14.3\%$ improvement on the Multimodal Reward Bench. Moreover, with more inference compute, R1-Reward’s performance is further enhanced, highlighting the potential of RL algorithms in optimizing MRMs.
arxiv情報
著者 | Yi-Fan Zhang,Xingyu Lu,Xiao Hu,Chaoyou Fu,Bin Wen,Tianke Zhang,Changyi Liu,Kaiyu Jiang,Kaibing Chen,Kaiyu Tang,Haojie Ding,Jiankang Chen,Fan Yang,Zhang Zhang,Tingting Gao,Liang Wang |
発行日 | 2025-05-05 17:59:50+00:00 |
arxivサイト | arxiv_id(pdf) |