要約
このペーパーでは、マルチモーダル大手言語モデル(MLLM)のルールベースの強化学習微調整(RFT)の思考プロセスを調査します。
最初に分類のためにCLS-RLを提案し、検証可能な報酬を使用してMLLM思考を促進します。
実験では、CLS-RLがSFTを大幅に上回り、「フリーランチ」一般化効果(1つのデータセットでトレーニングした後、目に見えないデータセットのパフォーマンスの向上)が得られます。
次に、この明示的な思考が常にRFTに必要であるかどうかを疑問視します。
RFTにとって明示的な思考が重要であるという挑戦的な慣習は、単純な平等精度報酬を介して思考を最小限に抑え、非思考RLを導入します。
実験では、domain内および一般化能力でCLS-RLを超えていないことを示しており、微調整時間が大幅に短くなります。
これは、思考を減らすことで、特定の視覚タスクのMLLM微調整効率と有効性を改善できることを示唆しています。
明示的な思考は、RFT中の報酬の収束に悪影響を与えると仮定します。
これをテストするために、モデルが最初に答えを出力し、次に思考プロセスを生成して思考のマイナスの影響を与えて、思考プロセスを生成するために、考え直し後の方法を提案します。
さらに、2Bモデルと7Bモデルを使用して、多様なタスク(数学、空間、パズルを含む)で考えていないRLをテストします。
2Bモデルの場合、考えられていないRLは、数学であっても、すべてのタスクの思考ベースのRFTを、考え直し後にパフォーマンスしています。
7Bモデルの場合、パフォーマンスは単純な視覚タスクで匹敵しますが、思考とのRFTは複雑な推論(数学)に優れています。
これは、複雑な数学の問題に対処するときに、小さなモデルが効果的な推論の生成、複雑なタスクのパフォーマンスの損傷に苦労していることを意味します。
逆に、単純な視覚的なタスクの場合、思考は不可欠ではなく、その削除はパフォーマンスを高め、トレーニング時間を短縮する可能性があります。
私たちの調査結果が、RFTにおける思考プロセスの効果をよりよく理解するための洞察を提供することを願っています。
要約(オリジナル)
This paper investigates the thinking process in rule-based reinforcement learning fine-tuning (RFT) for multi-modal large language models (MLLMs). We first propose CLS-RL for classification, using verifiable rewards to encourage MLLM thinking. Experiments show CLS-RL significantly outperforms SFT and yields a ‘free-lunch’ generalization effect (improving performance on unseen datasets after training on one dataset). We then question if this explicit thinking is always necessary for RFT. Challenging convention that explicit thinking is crucial for RFT, we introduce No-Thinking-RL, minimizing thinking via a simple equality accuracy reward. Experiments show No-Thinking-RL surpasses CLS-RL in in-domain and generalization abilities, with significantly less fine-tuning time. This suggests reducing thinking can improve MLLM fine-tuning efficiency and effectiveness for certain visual tasks. We hypothesize explicit thinking negatively impacts reward convergence during RFT. To test this, we propose the Think-After-Answerwer method to let models first output the answer and then generate thinking process to alliviate the negative impact of thinking. We further test No-Thinking-RL on diverse tasks (including math, spatial, puzzles) with 2B and 7B models. For 2B models, No-Thinking-RL outperforms thinking-based RFT for all tasks, even on math, with Think-After-Answerwer performing intermediately. For 7B models, performance is comparable on simple visual tasks, but RFT with thinking excels on complex reasoning (math). This implies when dealing with complex math problems, smaller models struggle with generating effective reasoning, hurting performance on complex tasks. Conversely, for simple visual tasks, thinking is not indispensable, and its removal can boost performance and reduce training time. We hope our findings offer insights for better understanding the effect of the thinking process in RFT.
arxiv情報
著者 | Ming Li,Jike Zhong,Shitian Zhao,Yuxiang Lai,Kaipeng Zhang |
発行日 | 2025-04-15 15:31:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google