要約
ロボット把握は、具体化されたシステムの基礎能力です。
多くの方法は、シーンのジオメトリをモデル化することなく、部分情報から直接出力を把握し、最適ではない動きや衝突さえも導きます。
これらの問題に対処するために、3D再構成を実行し、ポーズ予測をほぼリアルタイムで把握する新しいフレームワークであるZerograspを紹介します。
私たちの方法の重要な洞察は、オクルージョンの推論とオブジェクト間の空間的関係をモデル化することが、正確な再構築と把握の両方に有益であるということです。
私たちは、1Mの写真と現実的な画像、高解像度の3D再構成、および11.3bの物理的に検証された把握が、Objaverse-LVISデータセットからの12Kオブジェクトの注釈をポーズにする11.3bの物理的に検証する新しい大規模な合成データセットと、この方法を結合します。
GRASPNET-1Bベンチマークと実際のロボット実験を通じてZerograspを評価します。
Zerograspは、最先端のパフォーマンスを達成し、合成データを活用することにより、新しい実世界のオブジェクトに一般化します。
要約(オリジナル)
Robotic grasping is a cornerstone capability of embodied systems. Many methods directly output grasps from partial information without modeling the geometry of the scene, leading to suboptimal motion and even collisions. To address these issues, we introduce ZeroGrasp, a novel framework that simultaneously performs 3D reconstruction and grasp pose prediction in near real-time. A key insight of our method is that occlusion reasoning and modeling the spatial relationships between objects is beneficial for both accurate reconstruction and grasping. We couple our method with a novel large-scale synthetic dataset, which comprises 1M photo-realistic images, high-resolution 3D reconstructions and 11.3B physically-valid grasp pose annotations for 12K objects from the Objaverse-LVIS dataset. We evaluate ZeroGrasp on the GraspNet-1B benchmark as well as through real-world robot experiments. ZeroGrasp achieves state-of-the-art performance and generalizes to novel real-world objects by leveraging synthetic data.
arxiv情報
著者 | Shun Iwase,Zubair Irshad,Katherine Liu,Vitor Guizilini,Robert Lee,Takuya Ikeda,Ayako Amma,Koichi Nishiwaki,Kris Kitani,Rares Ambrus,Sergey Zakharov |
発行日 | 2025-04-15 04:37:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google