要約
最近の進歩は、結果報酬を備えたルールベースの強化学習(RL)を通じて、マルチモーダル大手言語モデル(MLLM)の強力な推論能力を引き出すことに成功しています。
ただし、このパラダイムには通常、最終的な結果につながる思考プロセスに関する監督が欠けています。その結果、モデルは一般化能力を妨げる可能性のある最適な推論戦略を学ぶことができます。
これに照らして、このパラダイムの思考プロセスの報酬信号を追加する試みとして、Sophiavl-R1を提案します。
これを達成するために、まず、思考プロセス全体の品質を評価する思考報酬モデルを訓練します。
Hackingの報酬のために特定のサンプルに対して思考報酬が信頼できない可能性があることを考えると、トレーニング中の思考報酬に信頼性の重みを割り当てるTrust-Grpoメソッドを提案します。
この重みは、正解と誤った答えにつながる応答の思考報酬の比較に基づいて計算され、潜在的に信頼できない思考報酬の影響を軽減するのに役立ちます。
さらに、時間の経過とともに思考報酬を徐々に削減するアニーリングトレーニング戦略を設計し、モデルが後のトレーニング段階で正確なルールベースの結果報酬にもっと依存できるようにします。
実験は、Sophiavl-R1がさまざまなベンチマーク(Mathvisita、MMMUなど)で一連の推論MLLMを上回り、強力な推論と一般化能力を示していることを示しています。
特に、Sophiavl-R1-7Bは、ほとんどのベンチマークでLlava-onevision-72bを上回ることもありますが、後者は10倍のパラメーターを持っています。
すべてのコード、モデル、およびデータセットは、https://github.com/kxfan2002/sophiavl-r1で公開されています。
要約(オリジナル)
Recent advances have shown success in eliciting strong reasoning abilities in multimodal large language models (MLLMs) through rule-based reinforcement learning (RL) with outcome rewards. However, this paradigm typically lacks supervision over the thinking process leading to the final outcome.As a result, the model may learn sub-optimal reasoning strategies, which can hinder its generalization ability. In light of this, we propose SophiaVL-R1, as an attempt to add reward signals for the thinking process in this paradigm. To achieve this, we first train a thinking reward model that evaluates the quality of the entire thinking process. Given that the thinking reward may be unreliable for certain samples due to reward hacking, we propose the Trust-GRPO method, which assigns a trustworthiness weight to the thinking reward during training. This weight is computed based on the thinking reward comparison of responses leading to correct answers versus incorrect answers, helping to mitigate the impact of potentially unreliable thinking rewards. Moreover, we design an annealing training strategy that gradually reduces the thinking reward over time, allowing the model to rely more on the accurate rule-based outcome reward in later training stages. Experiments show that our SophiaVL-R1 surpasses a series of reasoning MLLMs on various benchmarks (e.g., MathVisita, MMMU), demonstrating strong reasoning and generalization capabilities. Notably, our SophiaVL-R1-7B even outperforms LLaVA-OneVision-72B on most benchmarks, despite the latter having 10 times more parameters. All code, models, and datasets are made publicly available at https://github.com/kxfan2002/SophiaVL-R1.
arxiv情報
著者 | Kaixuan Fan,Kaituo Feng,Haoming Lyu,Dongzhan Zhou,Xiangyu Yue |
発行日 | 2025-05-22 17:59:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google