要約
ルールベースの強化学習(RL)をマルチモーダル大手言語モデル(MLLMS)に適用すると、特に知覚が多いタスクのために、テキストのみのドメインでの調査結果からのユニークな課題と潜在的な逸脱を導入します。
このペーパーでは、ジグソーパズルを構造化された実験フレームワークとして使用したルールベースの視覚RLの包括的な研究を提供し、いくつかの重要な調査結果を明らかにします。
\ textIT {最初に、} MLLMは、最初は単純なパズルでランダムな推測に近いパフォーマンスを発揮し、ほぼ完璧な精度を達成し、微調整を通じて複雑で目に見えない構成に一般化することがわかります。
\ textIT {第二に、}ジグソーパズルのトレーニングは、特定のタスク構成に関連する有効性を備えた他の視覚タスクに一般化を誘発する可能性があります。
\ textIT {第三に、} mllmsは明示的な推論の有無にかかわらず学習し、一般化することができますが、オープンソースモデルはしばしば直接応答を好みます。
その結果、ステップバイステップの推論のために訓練された場合でも、最終的な答えを導き出す際の思考プロセスを無視できます。
\ textIT {第四に、}複雑な推論パターンは、トレーニングとタスクの難易度とともに頻度が増加しているため、出現するのではなく既存のように見えることがわかります。
\ textIT {最後に、}私たちの結果は、RLが監視された微調整(SFT)よりも効果的な一般化を示すことを示しており、初期SFTコールドスタートフェーズはその後のRL最適化を妨げる可能性があります。
これらの観察結果はジグソーパズルのパズルに基づいており、他の視覚タスクで異なる場合がありますが、この研究は、集合的理解ルールベースの視覚RLとマルチモーダル学習におけるその可能性の大規模なパズルに貴重なジグソーパを提供します。
コードは、\ href {https://github.com/zifuwanggg/jigsaw-r1} {https://github.com/zifuwanggg/jigsaw-r1}で利用できます。
要約(オリジナル)
The application of rule-based reinforcement learning (RL) to multimodal large language models (MLLMs) introduces unique challenges and potential deviations from findings in text-only domains, particularly for perception-heavy tasks. This paper provides a comprehensive study of rule-based visual RL using jigsaw puzzles as a structured experimental framework, revealing several key findings. \textit{Firstly,} we find that MLLMs, initially performing near to random guessing on simple puzzles, achieve near-perfect accuracy and generalize to complex, unseen configurations through fine-tuning. \textit{Secondly,} training on jigsaw puzzles can induce generalization to other visual tasks, with effectiveness tied to specific task configurations. \textit{Thirdly,} MLLMs can learn and generalize with or without explicit reasoning, though open-source models often favor direct answering. Consequently, even when trained for step-by-step reasoning, they can ignore the thinking process in deriving the final answer. \textit{Fourthly,} we observe that complex reasoning patterns appear to be pre-existing rather than emergent, with their frequency increasing alongside training and task difficulty. \textit{Finally,} our results demonstrate that RL exhibits more effective generalization than Supervised Fine-Tuning (SFT), and an initial SFT cold start phase can hinder subsequent RL optimization. Although these observations are based on jigsaw puzzles and may vary across other visual tasks, this research contributes a valuable piece of jigsaw to the larger puzzle of collective understanding rule-based visual RL and its potential in multimodal learning. The code is available at: \href{https://github.com/zifuwanggg/Jigsaw-R1}{https://github.com/zifuwanggg/Jigsaw-R1}.
arxiv情報
著者 | Zifu Wang,Junyi Zhu,Bo Tang,Zhiyu Li,Feiyu Xiong,Jiaqian Yu,Matthew B. Blaschko |
発行日 | 2025-05-29 16:01:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google