要約
データが不足しているため、乱雑なシーンを把握することは、器用な手にとって依然として非常に困難です。
この問題に対処するために、1,319 のオブジェクト、8,270 のシーン、および 4 億 2,700 万の把握を含む大規模な合成ベンチマークを提示します。
ベンチマークを超えて、局所的な幾何学を条件とする拡散モデルを使用してデータから効率的に学習する新しい 2 段階の把握方法も提案します。
私たちが提案した生成手法は、シミュレーション実験のすべてのベースラインを上回りました。
さらに、テスト時間深度復元の助けを借りて、私たちの方法はゼロショットのシミュレーションから現実への転送を実証し、乱雑なシーンで現実世界の器用な把握成功率 90.7% を達成しました。
要約(オリジナル)
Grasping in cluttered scenes remains highly challenging for dexterous hands due to the scarcity of data. To address this problem, we present a large-scale synthetic benchmark, encompassing 1319 objects, 8270 scenes, and 427 million grasps. Beyond benchmarking, we also propose a novel two-stage grasping method that learns efficiently from data by using a diffusion model that conditions on local geometry. Our proposed generative method outperforms all baselines in simulation experiments. Furthermore, with the aid of test-time-depth restoration, our method demonstrates zero-shot sim-to-real transfer, attaining 90.7% real-world dexterous grasping success rate in cluttered scenes.
arxiv情報
著者 | Jialiang Zhang,Haoran Liu,Danshi Li,Xinqiang Yu,Haoran Geng,Yufei Ding,Jiayi Chen,He Wang |
発行日 | 2024-10-30 13:30:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google