Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning

要約

このペーパーでは、MLLMSのルールベースの強化微調整(RFT)における明示的思考プロセスの役割を調査します。
最初に、微調整に検証可能な報酬を使用して、MLLM画像分類のCLS-RLを提案します。
実験では、CLS-RLがSFTを大幅に上回り、クロスダタセットの一般化効果をもたらすことが示されています。
次に、RFTでの明示的な思考が常に必要かどうかを再考して疑問を投げかけます。
RFTの成功には明示的な思考が重要であるという条約に挑戦し、単純な平等精度報酬を導入することでRFTを探索することを検討し、RFTを調査しません。
さまざまなモデルサイズとタイプにわたる6つの多様なタスクで、非考えのRLを評価します。
実験結果は、3つの重要な調査結果を明らかにしています。1)。
視覚的な知覚タスクは、RFT中に思考を必要としません。なぜなら、No-Thinking-RLは、モデルサイズ全体で思考ベースのRFTを常に上回ったり、一致させたりするためです。
2)。}機能が限られているモデルは、RFT用の高品質のCOTを生成するのに苦労しており、思考ベースのRFTは、考えられないRLよりも効果的ではありません。
3)。
思考に基づくRFTのいくつかの応答のために、思考と回答の回答の答えの間には矛盾があり、全体的な精度よりも低い精度を示しています。
検証可能な回答の前に明示的な思考が報酬の収束を妨げ、パフォーマンスを減らす可能性があると仮定します。
この仮説をテストするために、実験的検証のためにこの効果を緩和するための答えの後に考えている考え方を提案します。
最後に、MLLMがRFT中にいつ考えるべきかを学ぶことができるかどうかを調べるために、パイロット研究を実施し、適応型考え方を導入します。
実験では、モデルの機能とタスクの複雑さに応じて特定のプロンプトに収束し、思考や非考えのRLの両方よりも同等またはより良いパフォーマンスを達成することが示されています。
これは、MLLMSが適応的に、その能力とタスクの複雑さに基づいて考えるかどうかを決定できることを示唆しています。

要約(オリジナル)

This paper investigates the role of explicit thinking process in rule-based reinforcement fine-tuning (RFT) for MLLMs. We first propose CLS-RL for MLLM image classification, using verifiable rewards for fine-tuning. Experiments show CLS-RL significantly outperforms SFT and yields a cross-dataset generalization effect. We then rethink and question whether explicit thinking in RFT is always necessary. Challenging the convention that explicit thinking is crucial for the success of RFT, we introduce No-Thinking-RL, exploring RFT without thinking by introducing a simple equality accuracy reward. We evaluate No-Thinking-RL on 6 diverse tasks across different model sizes and types. Experimental results reveal three key findings: 1). Visual perception tasks do not require thinking during RFT, as No-Thinking-RL consistently outperforms or matches Thinking-based RFT across model sizes. 2).} Models with limited capabilities struggle to generate high-quality CoT for RFT, making Thinking-based RFT less effective than No-Thinking-RL. 3). There are inconsistencies between the answers in the thinking and answer tags for some responses of thinking-based RFT, which show lower accuracy than the overall accuracy. We hypothesize that explicit thinking before verifiable answers may hinder reward convergence and reduce performance. To test this hypothesis, we propose Think-After-Answer, which places thinking after the answer to mitigate this effect for experimental verification. Lastly, we conduct a pilot study to explore whether MLLMs can learn when to think during RFT, introducing an Adaptive-Thinking method. Experiments show that it converges to a specific prompt depending on model capability and task complexity, achieving comparable or better performance than both Thinking and No-Thinking-RL. This suggests MLLMs can adaptively decide to think or not based on their capabilities and task complexity.

arxiv情報

著者 Ming Li,Jike Zhong,Shitian Zhao,Yuxiang Lai,Haoquan Zhang,Wang Bill Zhu,Kaipeng Zhang
発行日 2025-05-12 12:29:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク