要約
複雑な環境で動作するロボット操作システムは、シーン内のオブジェクトのジオメトリ (ポーズと 3D 形状) に関する情報と、オブジェクト ラベルなどの他の意味情報を提供する知覚システムに依存しています。
この情報は、関連するオブジェクトの実現可能な把握を選択するために使用されます。
この論文では、シーン内のすべてのオブジェクトの幾何学的および意味論的な情報と、それらのオブジェクトの実現可能な把握を同時に提供する新しい方法を紹介します。
私たちの方法の主な利点は、連続した認識と把握の計画ステップを回避するための速度です。
詳細な定量分析により、私たちの方法が、オブジェクトの形状、姿勢、把握の予測に関して最先端の専用方法と比較して競争力のあるパフォーマンスを実現しながら、毎秒 30 フレームの速度で高速推論を提供できることを示します。
要約(オリジナル)
Robotic manipulation systems operating in complex environments rely on perception systems that provide information about the geometry (pose and 3D shape) of the objects in the scene along with other semantic information such as object labels. This information is then used for choosing the feasible grasps on relevant objects. In this paper, we present a novel method to provide this geometric and semantic information of all objects in the scene as well as feasible grasps on those objects simultaneously. The main advantage of our method is its speed as it avoids sequential perception and grasp planning steps. With detailed quantitative analysis, we show that our method delivers competitive performance compared to the state-of-the-art dedicated methods for object shape, pose, and grasp predictions while providing fast inference at 30 frames per second speed.
arxiv情報
著者 | Shubham Agrawal,Nikhil Chavan-Dafle,Isaac Kasahara,Selim Engin,Jinwook Huh,Volkan Isler |
発行日 | 2023-05-16 15:03:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google