要約
6-DoF ロボットの把持は、長期にわたる未解決の問題です。
最近の方法では、強力な 3D ネットワークを利用して、深さセンサーから幾何学的把握表現を抽出し、一般的なオブジェクトに対して優れた精度を示しますが、透明または反射素材内のオブジェクトなど、測光的に困難なオブジェクトに対しては十分に機能しません。
ボトルネックは、これらのオブジェクトの表面が、光の吸収または屈折のために正確な深度を反射できないことにあります。
この論文では、不正確な深度データを悪用するのとは対照的に、MonoGraspNet と呼ばれる最初の RGB のみの 6-DoF 把握パイプラインを提案します。このパイプラインは、安定した 2D 機能を利用して任意のオブジェクト把握を同時に処理し、測光的に困難なオブジェクトによって引き起こされる問題を克服します。
MonoGraspNet は、キーポイント ヒートマップと法線マップを活用して、対応する深さ、把持方向、把持幅、および角度を持つ 2D キーポイントでパラメータ化された新しい表現によって表される 6-DoF 把持ポーズを回復します。
実際のシーンでの広範な実験は、私たちの方法が一般的なオブジェクトを把握する際に競争力のある結果を達成し、測光的に困難なオブジェクトを把握する際に深度ベースの競合他社を大幅に上回ることを示しています。
ロボット操作の研究をさらに活性化するために、2,000 万の正確な把握ラベルを持つ混合測光の複雑さの 120 のオブジェクトを含む、マルチビューおよびマルチシーンの現実世界の把握データセットにさらに注釈を付けてオープンソースにします。
要約(オリジナル)
6-DoF robotic grasping is a long-lasting but unsolved problem. Recent methods utilize strong 3D networks to extract geometric grasping representations from depth sensors, demonstrating superior accuracy on common objects but perform unsatisfactorily on photometrically challenging objects, e.g., objects in transparent or reflective materials. The bottleneck lies in that the surface of these objects can not reflect back accurate depth due to the absorption or refraction of light. In this paper, in contrast to exploiting the inaccurate depth data, we propose the first RGB-only 6-DoF grasping pipeline called MonoGraspNet that utilizes stable 2D features to simultaneously handle arbitrary object grasping and overcome the problems induced by photometrically challenging objects. MonoGraspNet leverages keypoint heatmap and normal map to recover the 6-DoF grasping poses represented by our novel representation parameterized with 2D keypoints with corresponding depth, grasping direction, grasping width, and angle. Extensive experiments in real scenes demonstrate that our method can achieve competitive results in grasping common objects and surpass the depth-based competitor by a large margin in grasping photometrically challenging objects. To further stimulate robotic manipulation research, we additionally annotate and open-source a multi-view and multi-scene real-world grasping dataset, containing 120 objects of mixed photometric complexity with 20M accurate grasping labels.
arxiv情報
著者 | Guangyao Zhai,Dianye Huang,Shun-Cheng Wu,Hyunjun Jung,Yan Di,Fabian Manhardt,Federico Tombari,Nassir Navab,Benjamin Busam |
発行日 | 2023-03-01 15:27:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google