ManiBox: Enhancing Spatial Grasping Generalization via Scalable Simulation Data Generation

要約

ロボットによる正確な把握ポリシーを学習することは、現実世界の複雑な操作タスクで動作する身体化エージェントにとって非常に重要です。
大幅な進歩にもかかわらず、ほとんどのモデルは依然として、把握するオブジェクトの正確な空間位置決めに苦労しています。
まず、この空間一般化の課題が、主に空間を適切に理解するための広範なデータ要件から生じていることを示します。
ただし、実際のロボットを使用してそのようなデータを収集するには法外に費用がかかり、シミュレーション データに依存すると、展開時に視覚的な一般化のギャップが生じることがよくあります。
これらの課題を克服するために、状態ベースのポリシーの一般化に焦点を当て、シミュレーション ベースの教師と生徒のフレームワークに基づいて構築された新しいバウンディング ボックスに基づく操作方法である \textbf{ManiBox} を紹介します。
教師ポリシーは、オブジェクトの空間位置を一意に決定することが証明されている境界ボックスを使用して、スケーラブルなシミュレーション データを効率的に生成します。
次に、スチューデント ポリシーはこれらの低次元空間状態を利用して、実際のロボットへのゼロショット転送を可能にします。
シミュレーション環境と現実世界の環境での包括的な評価を通じて、ManiBox は空間把握の一般化と多様な物体や背景への適応性が著しく向上していることを実証しました。
さらに、政策パフォーマンスのスケーリング法則に関する私たちの実証的研究は、空間ボリュームの一般化がべき乗則でデータ量に応じてスケーリングすることを示しています。
一定レベルの空間ボリュームでは、把握の成功率は経験的にデータ量に対するミカエリス・メンテンの反応速度に従い、データが増加するにつれて飽和効果が現れます。
私たちのビデオとコードは https://thkkk.github.io/manibox で入手できます。

要約(オリジナル)

Learning a precise robotic grasping policy is crucial for embodied agents operating in complex real-world manipulation tasks. Despite significant advancements, most models still struggle with accurate spatial positioning of objects to be grasped. We first show that this spatial generalization challenge stems primarily from the extensive data requirements for adequate spatial understanding. However, collecting such data with real robots is prohibitively expensive, and relying on simulation data often leads to visual generalization gaps upon deployment. To overcome these challenges, we then focus on state-based policy generalization and present \textbf{ManiBox}, a novel bounding-box-guided manipulation method built on a simulation-based teacher-student framework. The teacher policy efficiently generates scalable simulation data using bounding boxes, which are proven to uniquely determine the objects’ spatial positions. The student policy then utilizes these low-dimensional spatial states to enable zero-shot transfer to real robots. Through comprehensive evaluations in simulated and real-world environments, ManiBox demonstrates a marked improvement in spatial grasping generalization and adaptability to diverse objects and backgrounds. Further, our empirical study into scaling laws for policy performance indicates that spatial volume generalization scales with data volume in a power law. For a certain level of spatial volume, the success rate of grasping empirically follows Michaelis-Menten kinetics relative to data volume, showing a saturation effect as data increases. Our videos and code are available in https://thkkk.github.io/manibox.

arxiv情報

著者 Hengkai Tan,Xuezhou Xu,Chengyang Ying,Xinyi Mao,Songming Liu,Xingxing Zhang,Hang Su,Jun Zhu
発行日 2024-12-18 11:25:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク