NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation

要約

強化学習(RL)の最近の進歩により、視覚言語モデル(VLM)の推論能力が強化されました。
ただし、より良いスケールテスト時間計算にポリシー探索を強化することは、ほとんど露出度が低いままです。
さらに、VLMは不完全な視覚的知覚に苦労し続け、その後の推論プロセスに影響を与えます。
この目的のために、RLトレーニング中にクリーンな画像と適度に歪んだ画像の両方からの軌跡を混合するシンプルで効果的なデータ増強方法であるNoisyrolloutを提案します。
視覚的知覚と結果として生じる推論パターンにターゲットを絞った多様性を注入することにより、ノイズロルアウトは視覚志向の帰納的バイアスを通じてより良い政策探査を促進し、最終的にはより堅牢な推論行動につながります。
さらに、トレーニングよりも歪みの強度を徐々に減らすノイズアニーリングスケジュールを採用し、後の段階でトレーニングの安定性を確保しながら、ノイズの多い信号を早期に活用します。
重要なことに、私たちの方法は簡単に採用できます。追加のトレーニングコストやRL目標の変更を要求しません。
$ 2の異なるトレーニングデータセットに関する広範な実験は、Noisyrolloutが5ドルのドメインの推論と認識ベンチマークにまたがるオープンソースRLチューニングモデル間で最先端のパフォーマンスを達成することを示しています。
さらに、モデルサイズ($ 7 $ bおよび$ 32 $ b)とデータスケール($ 1 $ kから$ 6 $ k)にわたるノイロールアウトの有効性を検証し、その一般化とスケーラビリティを強調します。

要約(オリジナル)

Recent advances in reinforcement learning (RL) have strengthened the reasoning capabilities of vision-language models (VLMs). However, enhancing policy exploration to better scale test-time compute remains largely underexplored. In addition, VLMs continue to struggle with imperfect visual perception, which in turn affects the subsequent reasoning process. To this end, we propose NoisyRollout, a simple yet effective data augmentation method that mixes trajectories from both clean and moderately distorted images during RL training. By injecting targeted diversity in visual perception and the resulting reasoning patterns, NoisyRollout promotes better policy exploration through vision-oriented inductive biases, ultimately leading to more robust reasoning behaviors. We further adopt a noise annealing schedule that gradually reduces distortion strength over training, leveraging noisy signals early on while ensuring training stability in later stages. Crucially, our method is easy-to-adopt–requiring no additional training cost and no modifications to the RL objective. Extensive experiments on $2$ distinct training datasets demonstrate that NoisyRollout achieves state-of-the-art performance among open-source RL-tuned models across $5$ out-of-domain reasoning and perception benchmarks. Furthermore, we validate the effectiveness of NoisyRollout across model sizes ($7$B and $32$B) and data scales (from $1$K to $6$K), highlighting its generalizability and scalability.

arxiv情報

著者 Xiangyan Liu,Jinjie Ni,Zijian Wu,Chao Du,Longxu Dou,Haonan Wang,Tianyu Pang,Michael Qizhe Shieh
発行日 2025-05-27 02:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク