HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation

要約

大規模な基礎モデルは、ビジョンと言語の複雑な問題に対して強いオープンワールドの一般化を示していますが、ロボット工学では同様のレベルの一般化はまだ達成されていません。
根本的な課題の1つは、ロボットデータの欠如です。これは、通常、高価なオンロボット操作によって得られます。
有望な救済策は、アクションフリーのビデオ、手描きのスケッチ、シミュレーションデータなど、より安価でドメイン外のデータを活用することです。
この作業では、階層的なビジョン言語アクション(VLA)モデルは、アクションを予測するために視覚言語モデル(VLM)を直接微調整する標準的なモノリシックVLAモデルよりも、オフドメインデータの利用においてより効果的であると仮定します。
特に、階層的なVLAモデルのクラスを研究します。高レベルのVLMは、RGB画像とタスクの説明を与えられた目的のロボットエンドエフェクター軌道を示す粗い2Dパスを生成するように微調整されています。
その後、中間の2Dパス予測は、正確な操作が可能な低レベルの3D認識制御ポリシーへのガイダンスとして提供されます。
そうすることで、複雑なタスクレベルの推論に対する低レベルのポリシーの負担を軽減しながら、高レベルのVLMを細かいアクション予測から軽減します。
階層設計により、高レベルのVLMは、具体化、ダイナミクス、視覚的外観、タスクセマンティクスなどの違いを含む、ドメイン外の微調整データとレアルロボットテストシナリオの間の重要なドメインギャップを横切って転送できることを示しています。
実際の実験では、OpenVLA上の7つの異なる一般化の軸にわたって成功率が平均20%改善され、50%の相対的なゲインを表しています。
視覚的な結果は、https://hamster-robot.github.io/に提供されています

要約(オリジナル)

Large foundation models have shown strong open-world generalization to complex problems in vision and language, but similar levels of generalization have yet to be achieved in robotics. One fundamental challenge is the lack of robotic data, which are typically obtained through expensive on-robot operation. A promising remedy is to leverage cheaper, off-domain data such as action-free videos, hand-drawn sketches or simulation data. In this work, we posit that hierarchical vision-language-action (VLA) models can be more effective in utilizing off-domain data than standard monolithic VLA models that directly finetune vision-language models (VLMs) to predict actions. In particular, we study a class of hierarchical VLA models, where the high-level VLM is finetuned to produce a coarse 2D path indicating the desired robot end-effector trajectory given an RGB image and a task description. The intermediate 2D path prediction is then served as guidance to the low-level, 3D-aware control policy capable of precise manipulation. Doing so alleviates the high-level VLM from fine-grained action prediction, while reducing the low-level policy’s burden on complex task-level reasoning. We show that, with the hierarchical design, the high-level VLM can transfer across significant domain gaps between the off-domain finetuning data and real-robot testing scenarios, including differences on embodiments, dynamics, visual appearances and task semantics, etc. In the real-robot experiments, we observe an average of 20% improvement in success rate across seven different axes of generalization over OpenVLA, representing a 50% relative gain. Visual results are provided at: https://hamster-robot.github.io/

arxiv情報

著者 Yi Li,Yuquan Deng,Jesse Zhang,Joel Jang,Marius Memme,Raymond Yu,Caelan Reed Garrett,Fabio Ramos,Dieter Fox,Anqi Li,Abhishek Gupta,Ankit Goyal
発行日 2025-02-11 03:49:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク