要約
マルチモーダル報酬モデル(MRMS)は、マルチモーダル大手言語モデル(MLLM)のパフォーマンスを向上させる上で重要な役割を果たします。
最近の進歩は主にMRMSのモデル構造とトレーニングデータの改善に焦点を当てていますが、報酬モデリングの長期的な推論能力の有効性とMRMSのこれらの機能をアクティブ化する方法についての調査は限られています。
この論文では、報酬モデリングを改善するために強化学習(RL)を使用する方法を探ります。
具体的には、ルールベースのRLタスクとして報酬モデリングの問題を再定式化します。
ただし、補強++などの既存のRLアルゴリズムを直接適用して、モデリングに報酬を与えることは、これらのアルゴリズムの固有の制限により、トレーニングの不安定性や崩壊にさえつながることが多いことを観察します。
この問題に対処するために、既存のRLメソッドのトレーニング損失、アドバンテージ推定戦略、報酬設計を改良するStableReInforceアルゴリズムを提案します。
これらの改良により、より安定したトレーニングダイナミクスと優れたパフォーマンスが発生します。
MRMトレーニングを容易にするために、多様なデータセットから200K優先データを収集します。
このデータセットでStablereInforceアルゴリズムを使用してトレーニングされた報酬モデルであるR1-Rewardは、マルチモーダル報酬モデリングベンチマークのパフォーマンスを大幅に向上させます。
以前のSOTAモデルと比較して、R1-RewardはVL Reward-Benchで$ 8.4 \%$の改善と、マルチモーダル報酬ベンチで14.3%\%$の改善を達成します。
さらに、より推論計算により、R1-Rewardのパフォーマンスがさらに強化され、MRMSを最適化するRLアルゴリズムの可能性を強調します。
要約(オリジナル)
Multimodal Reward Models (MRMs) play a crucial role in enhancing the performance of Multimodal Large Language Models (MLLMs). While recent advancements have primarily focused on improving the model structure and training data of MRMs, there has been limited exploration into the effectiveness of long-term reasoning capabilities for reward modeling and how to activate these capabilities in MRMs. In this paper, we explore how Reinforcement Learning (RL) can be used to improve reward modeling. Specifically, we reformulate the reward modeling problem as a rule-based RL task. However, we observe that directly applying existing RL algorithms, such as Reinforce++, to reward modeling often leads to training instability or even collapse due to the inherent limitations of these algorithms. To address this issue, we propose the StableReinforce algorithm, which refines the training loss, advantage estimation strategy, and reward design of existing RL methods. These refinements result in more stable training dynamics and superior performance. To facilitate MRM training, we collect 200K preference data from diverse datasets. Our reward model, R1-Reward, trained using the StableReinforce algorithm on this dataset, significantly improves performance on multimodal reward modeling benchmarks. Compared to previous SOTA models, R1-Reward achieves a $8.4\%$ improvement on the VL Reward-Bench and a $14.3\%$ improvement on the Multimodal Reward Bench. Moreover, with more inference compute, R1-Reward’s performance is further enhanced, highlighting the potential of RL algorithms in optimizing MRMs.
arxiv情報
著者 | Yi-Fan Zhang,Xingyu Lu,Xiao Hu,Chaoyou Fu,Bin Wen,Tianke Zhang,Changyi Liu,Kaiyu Jiang,Kaibing Chen,Kaiyu Tang,Haojie Ding,Jiankang Chen,Fan Yang,Zhang Zhang,Tingting Gao,Liang Wang |
発行日 | 2025-05-09 13:39:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google