要約
大規模なビジョン言語モデル(LVLMS)は、最近、シーンの知覚と指示のための言語のためのビジョンを活用することにより、最近高度なロボット操作を行っています。
ただし、既存の方法は、費用のかかる人間が注目したトレーニングデータセットに大きく依存しており、一般化を制限し、ドメイン外(OOD)シナリオで苦労し、実世界の適応性を低下させます。
これらの課題に対処するために、検証可能な報酬(RLVR)を使用して従来の監督を補強学習に置き換える新しい強化学習フレームワークであるMANIPLVM-R1を提案します。
タスクに合わせた結果を直接最適化することにより、私たちの方法は、費用のかかる注釈への依存を除去しながら、一般化と物理的推論を強化します。
具体的には、主要なロボット操作サブタスクをターゲットにした2つのルールベースの報酬関数を設計します:相互作用領域のローカリゼーションを強化するためのアフォーダンス認識報酬と、アクションパスの物理的な妥当性を確保するための軌跡の一致報酬。
これらの報酬は、即時のフィードバックを提供し、空間論理的制約を課し、モデルが浅いパターンのマッチングを超えて、物理的な相互作用に関するより深く、より体系的な推論を学ぶことを奨励します。
要約(オリジナル)
Large Vision-Language Models (LVLMs) have recently advanced robotic manipulation by leveraging vision for scene perception and language for instruction following. However, existing methods rely heavily on costly human-annotated training datasets, which limits their generalization and causes them to struggle in out-of-domain (OOD) scenarios, reducing real-world adaptability. To address these challenges, we propose ManipLVM-R1, a novel reinforcement learning framework that replaces traditional supervision with Reinforcement Learning using Verifiable Rewards (RLVR). By directly optimizing for task-aligned outcomes, our method enhances generalization and physical reasoning while removing the dependence on costly annotations. Specifically, we design two rule-based reward functions targeting key robotic manipulation subtasks: an Affordance Perception Reward to enhance localization of interaction regions, and a Trajectory Match Reward to ensure the physical plausibility of action paths. These rewards provide immediate feedback and impose spatial-logical constraints, encouraging the model to go beyond shallow pattern matching and instead learn deeper, more systematic reasoning about physical interactions.
arxiv情報
著者 | Zirui Song,Guangxian Ouyang,Mingzhe Li,Yuheng Ji,Chenxi Wang,Zixiang Xu,Zeyu Zhang,Xiaoqing Zhang,Qian Jiang,Zhenhao Chen,Zhongzhi Li,Rui Yan,Xiuying Chen |
発行日 | 2025-05-22 10:57:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google