要約
視覚-言語-行動(VLA)モデルの最近の進歩は、汎化能力を向上させるために、事前に訓練された視覚-言語モデル(VLM)を活用している。VLMは通常、視覚言語理解タスクで事前に訓練され、豊富な意味知識と推論能力を提供する。しかし、先行研究によると、VLMはしばしば高レベルの意味内容に焦点を当て、低レベルの特徴を無視するため、詳細な空間情報を捉え、物理的ダイナミクスを理解する能力が制限される。このような側面は、具現化された制御タスクにとって極めて重要であるが、既存の事前訓練パラダイムではまだ十分に検討されていない。本論文では、VLAのトレーニングパラダイムを調査し、マルチモーダルな理解力と将来的な予測力の両方を目標とし、高水準の意味理解と低水準の空間理解の両方を強化する、UP-VLAを導入します。実験結果によると、UP-VLAはカルバンABC-Dベンチマークにおいて、従来の最先端手法と比較して33%の改善を達成しました。さらに、UP-VLAは実世界の操作タスク、特に正確な空間情報を必要とするタスクにおいて、成功率の向上を示している。
要約(オリジナル)
Recent advancements in Vision-Language-Action (VLA) models have leveraged pre-trained Vision-Language Models (VLMs) to improve the generalization capabilities. VLMs, typically pre-trained on vision-language understanding tasks, provide rich semantic knowledge and reasoning abilities. However, prior research has shown that VLMs often focus on high-level semantic content and neglect low-level features, limiting their ability to capture detailed spatial information and understand physical dynamics. These aspects, which are crucial for embodied control tasks, remain underexplored in existing pre-training paradigms. In this paper, we investigate the training paradigm for VLAs, and introduce \textbf{UP-VLA}, a \textbf{U}nified VLA model training with both multi-modal \textbf{U}nderstanding and future \textbf{P}rediction objectives, enhancing both high-level semantic comprehension and low-level spatial understanding. Experimental results show that UP-VLA achieves a 33% improvement on the Calvin ABC-D benchmark compared to the previous state-of-the-art method. Additionally, UP-VLA demonstrates improved success rates in real-world manipulation tasks, particularly those requiring precise spatial information.
arxiv情報
著者 | Jianke Zhang,Yanjiang Guo,Yucheng Hu,Xiaoyu Chen,Xiang Zhu,Jianyu Chen |
発行日 | 2025-02-03 03:53:25+00:00 |
arxivサイト | arxiv_id(pdf) |