PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation

要約

言語ガイドによるロボット操作は、さまざまな複雑な操作タスクを達成するために、身体化されたエージェントが抽象的なユーザーの指示に従う必要がある難しいタスクです。
これまでの研究では、命令と低レベルの実行可能なアクションとの関係を明らかにせずにデータを単純にフィッティングしていましたが、これらのモデルは、移転可能な知識を取得する代わりにデータの表面的なパターンを記憶する傾向があり、そのため動的な環境の変化に対して脆弱でした。
この問題に対処するために、タスク関連のウェイポイントの予測のみに焦点を当てたロボット操作用の PrIrmitive 駆動のウェイポイント認識世界モデル (PIVOT-R) を提案します。
具体的には、PIVOT-R は Waypoint-aware World Model (WAWM) と軽量のアクション予測モジュールで構成されます。
前者はプリミティブ アクションの解析とプリミティブ駆動のウェイポイント予測を実行し、後者は低レベル アクションのデコードに焦点を当てます。
さらに、モデルの異なるモジュールに異なる実行頻度を使用できる非同期階層エグゼキューター (AHE) も設計します。これにより、モデルの計算冗長性が削減され、モデルの実行効率が向上します。
当社の PIVOT-R は、SeaWave ベンチマークで最先端 (SoTA) オープンソース モデルを上回るパフォーマンスを示し、4 つのレベルの指導タスクにわたって平均 19.45% の相対的改善を達成しました。
さらに、同期実行される PIVOT-R と比較して、AHE を使用した PIVOT-R の実行効率は 28 倍向上しますが、パフォーマンスの低下はわずか 2.9% です。
これらの結果は、当社の PIVOT-R がロボット操作のパフォーマンスと効率の両方を大幅に向上させることができるという説得力のある証拠を提供します。

要約(オリジナル)

Language-guided robotic manipulation is a challenging task that requires an embodied agent to follow abstract user instructions to accomplish various complex manipulation tasks. Previous work trivially fitting the data without revealing the relation between instruction and low-level executable actions, these models are prone to memorizing the surficial pattern of the data instead of acquiring the transferable knowledge, and thus are fragile to dynamic environment changes. To address this issue, we propose a PrIrmitive-driVen waypOinT-aware world model for Robotic manipulation (PIVOT-R) that focuses solely on the prediction of task-relevant waypoints. Specifically, PIVOT-R consists of a Waypoint-aware World Model (WAWM) and a lightweight action prediction module. The former performs primitive action parsing and primitive-driven waypoint prediction, while the latter focuses on decoding low-level actions. Additionally, we also design an asynchronous hierarchical executor (AHE), which can use different execution frequencies for different modules of the model, thereby helping the model reduce computational redundancy and improve model execution efficiency. Our PIVOT-R outperforms state-of-the-art (SoTA) open-source models on the SeaWave benchmark, achieving an average relative improvement of 19.45% across four levels of instruction tasks. Moreover, compared to the synchronously executed PIVOT-R, the execution efficiency of PIVOT-R with AHE is increased by 28-fold, with only a 2.9% drop in performance. These results provide compelling evidence that our PIVOT-R can significantly improve both the performance and efficiency of robotic manipulation.

arxiv情報

著者 Kaidong Zhang,Pengzhen Ren,Bingqian Lin,Junfan Lin,Shikui Ma,Hang Xu,Xiaodan Liang
発行日 2024-10-14 11:30:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク