要約
強化学習(RL)は、ビジョン言語モデル(VLM)の推論を強化するための効果的なトレーニング後の戦略であることが証明されています。
グループ相対ポリシー最適化(GRPO)は、モデルが応答する前に完全な推論トレースを生成することを奨励する最近の顕著な方法であり、トークンの使用と計算コストの増加につながります。
人間のような思考プロセスに触発されました – 人々が簡単な質問を求めて推論をスキップしますが、必要なときは慎重に考えてください。
これを実現するために、2段階のトレーニング戦略であるTonを提案します。(i)シンプルで効果的な「思考ドロップアウト」操作を備えた監視された微調整(SFT)ステージで、推論の痕跡が空の思考にランダムに置き換えられます。
これは、選択的推論のコールドスタートとして機能する思考または非形式を導入します。
(ii)タスク対応の結果の報酬を最大化しながら、モデルがいつ考えるかどうかを自由に調査できるようにするGRPOステージ。
実験結果は、TONがパフォーマンスを犠牲にしたり、改善することなく、バニラGRPOと比較して最大90%減少することができることを示しています。
3Bと7Bの両方のモデルの両方で、さまざまな推論の難しさを覆う多様なビジョン言語タスク全体のさらなる評価は、モデルがトレーニングの進歩に伴う不必要な推論ステップをバイパスすることを徐々に学習することを確認しています。
これらの発見は、強化学習アプローチにおける人間のような推論パターンへの道に光を当てています。
私たちのコードはhttps://github.com/kokolerk/tonで入手できます。
要約(オリジナル)
Reinforcement Learning (RL) has proven to be an effective post-training strategy for enhancing reasoning in vision-language models (VLMs). Group Relative Policy Optimization (GRPO) is a recent prominent method that encourages models to generate complete reasoning traces before answering, leading to increased token usage and computational cost. Inspired by the human-like thinking process-where people skip reasoning for easy questions but think carefully when needed-we explore how to enable VLMs to first decide when reasoning is necessary. To realize this, we propose TON, a two-stage training strategy: (i) a supervised fine-tuning (SFT) stage with a simple yet effective ‘thought dropout’ operation, where reasoning traces are randomly replaced with empty thoughts. This introduces a think-or-not format that serves as a cold start for selective reasoning; (ii) a GRPO stage that enables the model to freely explore when to think or not, while maximizing task-aware outcome rewards. Experimental results show that TON can reduce the completion length by up to 90% compared to vanilla GRPO, without sacrificing performance or even improving it. Further evaluations across diverse vision-language tasks-covering a range of reasoning difficulties under both 3B and 7B models-consistently reveal that the model progressively learns to bypass unnecessary reasoning steps as training advances. These findings shed light on the path toward human-like reasoning patterns in reinforcement learning approaches. Our code is available at https://github.com/kokolerk/TON.
arxiv情報
著者 | Jiaqi Wang,Kevin Qinghong Lin,James Cheng,Mike Zheng Shou |
発行日 | 2025-05-23 16:09:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google