要約
このペーパーでは、マルチモーダル大手言語モデル(MLLM)と思考プロセスの役割を使用した視覚分類のためのルールベースの強化学習(RL)微調整を調査します。
まず、\ textit {cls-rl}を調査することから始めます。これは、分類前にMLLMが「考える」ことを奨励するために検証可能な信号を報酬として活用する方法です。
\ textBf {Eleven}データセットを介した実験は、CLS-RLが基本的な一般化と少ないショット学習シナリオの両方で、監視された微調整(SFT)よりも大幅な改善を達成することを示しています。
特に、あるデータセットで微調整すると他のデータのパフォーマンスが予期せず向上する「フリーランチ」現象を観察し、RLが基本的な分類スキルを効果的に教えていることを示唆しています。
ただし、ルールベースのRLの重要な側面である明示的な思考が常に有益であるか不可欠であるかどうかを疑問視しています。
複雑な推論がパフォーマンスを向上させるという従来の仮定に挑戦し、\ textit {no-thinkink-rl}を導入します。これは、平等精度の報酬を利用することで微調整中のモデルの思考を最小限に抑える新しいアプローチです。
私たちの実験は、CLS-RLと比較して優れたドメイン内のパフォーマンスと一般化機能を達成する一方で、微調整時間が大幅に少ないことを実験していることが明らかになりました。
これは、一般的な仮定に反して、思考プロセスを減らすことで、いくつかの視覚的なタスクに対してより効率的かつ効果的なMLLM微調整につながる可能性があることを強調しています。
さらに、cVbenchの6.4 \%改善など、他の視覚ベンチマークでのパフォーマンスの向上を実証していません。
私たちの調査結果が、RLベースの微調整における思考の影響に関する洞察を提供することを願っています。
要約(オリジナル)
This paper investigates rule-based reinforcement learning (RL) fine-tuning for visual classification using multi-modal large language models (MLLMs) and the role of the thinking process. We begin by exploring \textit{CLS-RL}, a method that leverages verifiable signals as rewards to encourage MLLMs to ‘think’ before classifying. Our experiments across \textbf{eleven} datasets demonstrate that CLS-RL achieves significant improvements over supervised fine-tuning (SFT) in both base-to-new generalization and few-shot learning scenarios. Notably, we observe a ‘free-lunch’ phenomenon where fine-tuning on one dataset unexpectedly enhances performance on others, suggesting that RL effectively teaches fundamental classification skills. However, we question whether the explicit thinking, a critical aspect of rule-based RL, is always beneficial or indispensable. Challenging the conventional assumption that complex reasoning enhances performance, we introduce \textit{No-Thinking-RL}, a novel approach that minimizes the model’s thinking during fine-tuning by utilizing an equality accuracy reward. Our experiments reveal that No-Thinking-RL achieves superior in-domain performance and generalization capabilities compared to CLS-RL, while requiring significantly less fine-tuning time. This underscores that, contrary to prevailing assumptions, reducing the thinking process can lead to more efficient and effective MLLM fine-tuning for some visual tasks. Furthermore, No-Thinking-RL demonstrates enhanced performance on other visual benchmarks, such as a 6.4\% improvement on CVBench. We hope our findings provides insights into the impact of thinking in RL-based fine-tuning.
arxiv情報
著者 | Ming Li,Jike Zhong,Shitian Zhao,Yuxiang Lai,Kaipeng Zhang |
発行日 | 2025-04-01 09:52:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google