要約
検証可能な結果報酬(RLVR)による補強学習は、大規模な言語モデル(LLMS)のチェーンオブ考え(COT)の推論を効果的に拡大しました。
しかし、視覚環境での目標指向アクション推論に対する視覚言語モデル(VLM)エージェントのトレーニングにおけるその有効性はあまり確立されていません。
この作業は、24ポイントなどの複雑なカードゲームに関する広範な実験と、Alfworldからの具体化されたタスクを通じてこの問題を調査しています。
報酬がアクションの結果のみに基づいている場合、RLはVLMSのCOT推論を奨励することができず、代わりに、エージェントの思考の多様性の急速な喪失、国家releventと不完全な推論、およびその後の無効な行動を迅速に否定的に否定することを特徴とする思考崩壊と呼ばれる現象につながることがわかります。
思考崩壊に対抗するために、プロセスガイダンスの必要性を強調し、各RLステップでエージェントの推論を評価および改良する自動化された補正装置を提案します。
このシンプルでスケーラブルなGTR(ガイド付き思考強化)フレームワークは、密集した、ステップごとの人間のラベル付けを必要とせずに、同時に推論と行動を訓練します。
我々の実験は、GTRがさまざまな視覚環境でLLAVA-7Bモデルのパフォーマンスと一般化を大幅に向上させ、モデルサイズが顕著なSOTAモデルと比較して3〜5倍高いタスク成功率を達成することを示しています。
要約(オリジナル)
Reinforcement learning with verifiable outcome rewards (RLVR) has effectively scaled up chain-of-thought (CoT) reasoning in large language models (LLMs). Yet, its efficacy in training vision-language model (VLM) agents for goal-directed action reasoning in visual environments is less established. This work investigates this problem through extensive experiments on complex card games, such as 24 points, and embodied tasks from ALFWorld. We find that when rewards are based solely on action outcomes, RL fails to incentivize CoT reasoning in VLMs, instead leading to a phenomenon we termed thought collapse, characterized by a rapid loss of diversity in the agent’s thoughts, state-irrelevant and incomplete reasoning, and subsequent invalid actions, resulting in negative rewards. To counteract thought collapse, we highlight the necessity of process guidance and propose an automated corrector that evaluates and refines the agent’s reasoning at each RL step. This simple and scalable GTR (Guided Thought Reinforcement) framework trains reasoning and action simultaneously without the need for dense, per-step human labeling. Our experiments demonstrate that GTR significantly enhances the performance and generalization of the LLaVA-7b model across various visual environments, achieving 3-5 times higher task success rates compared to SoTA models with notably smaller model sizes.
arxiv情報
著者 | Tong Wei,Yijun Yang,Junliang Xing,Yuanchun Shi,Zongqing Lu,Deheng Ye |
発行日 | 2025-03-11 15:17:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google