Perception-R1: Pioneering Perception Policy with Reinforcement Learning

要約

DeepSeek-R1の成功に触発されて、知覚政策学習のためのトレーニング後のMLLMにおけるルールベースの強化学習(RL)の可能性を探ります。
有望ですが、最初の実験では、RLを介して思考プロセスを組み込むことは、すべての視覚的認識タスクにわたってパフォーマンスの向上に一貫して得られないことが明らかになりました。
これにより、視覚的知覚の文脈においてRLの本質的な役割を掘り下げることができます。
この作業では、ファンダメンタルズに戻り、さまざまな知覚タスクに対するRLの効果を調査します。
知覚の複雑さは、RLの有効性を決定する主要な要因であることを観察します。
また、報酬設計は、モデル認識の上限をさらに承認する上で重要な役割を果たすことを観察します。
これらの調査結果を活用するために、トレーニング後のMLLM中にGRPOを使用したスケーラブルなRLフレームワークであるPerception-R1を提案します。
標準のQWEN2.5-VL-3B-Instructを使用すると、Perception-R1はRefCoco +で +4.2%、Pixmo-Countで +17.9%、PageoCRで +4.2%、特にCoCO2017 VALで31.9%APが初めて知覚政策学習のための強力なベースラインを確立します。

要約(オリジナル)

Inspired by the success of DeepSeek-R1, we explore the potential of rule-based reinforcement learning (RL) in MLLM post-training for perception policy learning. While promising, our initial experiments reveal that incorporating a thinking process through RL does not consistently lead to performance gains across all visual perception tasks. This leads us to delve into the essential role of RL in the context of visual perception. In this work, we return to the fundamentals and explore the effects of RL on different perception tasks. We observe that the perceptual complexity is a major factor in determining the effectiveness of RL. We also observe that reward design plays a crucial role in further approching the upper limit of model perception. To leverage these findings, we propose Perception-R1, a scalable RL framework using GRPO during MLLM post-training. With a standard Qwen2.5-VL-3B-Instruct, Perception-R1 achieves +4.2% on RefCOCO+, +17.9% on PixMo-Count, +4.2% on PageOCR, and notably, 31.9% AP on COCO2017 val for the first time, establishing a strong baseline for perception policy learning.

arxiv情報

著者 En Yu,Kangheng Lin,Liang Zhao,Jisheng Yin,Yana Wei,Yuang Peng,Haoran Wei,Jianjian Sun,Chunrui Han,Zheng Ge,Xiangyu Zhang,Daxin Jiang,Jingyu Wang,Wenbing Tao
発行日 2025-04-10 17:58:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク