要約
近年、様々なロボットタスクにおける視覚言語行動(VLA)モデルの進歩にもかかわらず、成功したロールアウトからの行動クローニングのみに依存しているため、未見のタスクに対する汎化性が低いなどの重大な問題に悩まされている。さらに、これらのモデルは、通常、異なる設定下で専門家が収集したデモンストレーションを再現するように微調整されているため、分布バイアスが発生し、効率性、安全性、タスク完了などの多様な操作目的への適応性が制限される。このギャップを埋めるために、我々はGRAPEを導入する:GRAPE: Generalizing Robot Policy via Preference Alignment)を紹介する。具体的には、GRAPEはVLAを軌道レベルで整列させ、成功した試行と失敗した試行の両方から報酬を暗黙的にモデル化することで、多様なタスクへの汎化性を高める。さらに、GRAPEは複雑な操作タスクを独立したステージに分解し、大規模な視覚言語モデルによって提案されたキーポイントを用いてカスタマイズされた時空間制約により、嗜好モデリングを自動的にガイドする。特筆すべきは、これらの制約は柔軟であり、安全性、効率性、あるいはタスクの成功といった様々な目的にモデルを合わせるようにカスタマイズできることである。我々は、実世界とシミュレーション環境の両方において、多様なタスクにわたってGRAPEを評価する。実験結果は、GRAPEが最先端のVLAモデルの性能を向上させ、領域内タスクと未見操作タスクの成功率をそれぞれ51.79%と58.20%向上させることを示している。さらに、GRAPEは安全性や効率性といった様々な目的に合わせることができ、衝突率をそれぞれ37.44%、ロールアウトのステップ長を11.15%削減した。すべてのコード、モデル、データはhttps://grape-vla.github.io/。
要約(オリジナル)
Despite the recent advancements of vision-language-action (VLA) models on a variety of robotics tasks, they suffer from critical issues such as poor generalizability to unseen tasks, due to their reliance on behavior cloning exclusively from successful rollouts. Furthermore, they are typically fine-tuned to replicate demonstrations collected by experts under different settings, thus introducing distribution bias and limiting their adaptability to diverse manipulation objectives, such as efficiency, safety, and task completion. To bridge this gap, we introduce GRAPE: Generalizing Robot Policy via Preference Alignment. Specifically, GRAPE aligns VLAs on a trajectory level and implicitly models reward from both successful and failure trials to boost generalizability to diverse tasks. Moreover, GRAPE breaks down complex manipulation tasks to independent stages and automatically guides preference modeling through customized spatiotemporal constraints with keypoints proposed by a large vision-language model. Notably, these constraints are flexible and can be customized to align the model with varying objectives, such as safety, efficiency, or task success. We evaluate GRAPE across a diverse array of tasks in both real-world and simulated environments. Experimental results demonstrate that GRAPE enhances the performance of state-of-the-art VLA models, increasing success rates on in-domain and unseen manipulation tasks by 51.79% and 58.20%, respectively. Additionally, GRAPE can be aligned with various objectives, such as safety and efficiency, reducing collision rates by 37.44% and rollout step-length by 11.15%, respectively. All code, models, and data are available at https://grape-vla.github.io/
arxiv情報
著者 | Zijian Zhang,Kaiyuan Zheng,Zhaorun Chen,Joel Jang,Yi Li,Siwei Han,Chaoqi Wang,Mingyu Ding,Dieter Fox,Huaxiu Yao |
発行日 | 2025-02-04 08:49:11+00:00 |
arxivサイト | arxiv_id(pdf) |