要約
特にグループ相対政策最適化(GRPO)を通じて、強化学習の最近の進歩により、複雑な推論タスクのためにマルチモーダルの大規模な言語モデルが大幅に改善されました。
ただし、2つの重大な制限が持続します。1)しばしば、顕著な空間的な手がかりを曖昧にする焦点を絞らず、冗長推論チェーンを生成し、2)バイナリの報酬は部分的に正しい答えを説明できず、高い報酬の分散と非効率的な学習をもたらします。
この論文では、焦点を絞った思考と密度の高い報酬の粒度を備えた視覚的推論を強化する新しいフレームワークであるTw-grpoを提案します。
具体的には、情報密度が高いトークン(グループ内の分散により推定)を優先するトークン重み付けメカニズムを使用して、一般的な推論上のプレフィックスのような冗長トークンを抑制します。
さらに、シングル選択からマルチ選択QAタスクにシフトすることにより、RLトレーニングを再定式化します。この場合、ソフトリワードにより、部分的な正確性を区別することにより、より細かい勾配の勾配推定が可能になります。
さらに、既存のベンチマークから多様なマルチ選択サンプルを生成するためのデータ増強戦略である質問回答の反転を提案します。
実験は、いくつかのビデオ推論と一般的な理解ベンチマークで最先端のパフォーマンスを示しています。
特に、TW-GRPOは、Clevrerで50.4 \%の精度(Video-R1よりも18.8 \%改善)、MMVUで65.8 \%を達成します。
私たちのコードは、\ href {https://github.com/longmalongma/tw-grpo} {https://github.com/longmalongma/tw-grpoで入手できます。
要約(オリジナル)
Recent advancements in reinforcement learning, particularly through Group Relative Policy Optimization (GRPO), have significantly improved multimodal large language models for complex reasoning tasks. However, two critical limitations persist: 1) they often produce unfocused, verbose reasoning chains that obscure salient spatiotemporal cues and 2) binary rewarding fails to account for partially correct answers, resulting in high reward variance and inefficient learning. In this paper, we propose TW-GRPO, a novel framework that enhances visual reasoning with focused thinking and dense reward granularity. Specifically, we employs a token weighting mechanism that prioritizes tokens with high informational density (estimated by intra-group variance), suppressing redundant tokens like generic reasoning prefixes. Furthermore, we reformulate RL training by shifting from single-choice to multi-choice QA tasks, where soft rewards enable finer-grained gradient estimation by distinguishing partial correctness. Additionally, we propose question-answer inversion, a data augmentation strategy to generate diverse multi-choice samples from existing benchmarks. Experiments demonstrate state-of-the-art performance on several video reasoning and general understanding benchmarks. Notably, TW-GRPO achieves 50.4\% accuracy on CLEVRER (18.8\% improvement over Video-R1) and 65.8\% on MMVU. Our codes are available at \href{https://github.com/longmalongma/TW-GRPO}{https://github.com/longmalongma/TW-GRPO}.
arxiv情報
著者 | Jisheng Dang,Jingze Wu,Teng Wang,Xuanhui Lin,Nannan Zhu,Hongbo Chen,Wei-Shi Zheng,Meng Wang,Tat-Seng Chua |
発行日 | 2025-05-30 15:42:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google