要約
物をつかむことは人間の重要な活動であり、ロボット工学、コンピューター ビジョン、認知科学で長年研究されてきました。
既存の研究のほとんどは、3D または 2D オブジェクト表現を条件とした手のポーズを合成するという観点から把握を研究しています。
我々は、3D ハンドモデルまたは 2D 画像を条件として保持されたオブジェクトを合成するという逆問題に対処する GenHeld を提案します。
手の 3D モデルが与えられると、GenHeld 3D は、オブジェクト コードと呼ばれるコンパクトなオブジェクト表現を使用して、大規模なデータセットから妥当な保持オブジェクトを選択できます。その後、選択されたオブジェクトは、手のポーズを変更せずに妥当な把握を形成するように位置決めおよび方向付けされます。
2D 手の画像のみが利用可能な場合、GenHeld 2D はこの画像を編集して、保持されたオブジェクトを追加または置き換えることができます。
GenHeld 2D は、GenHeld 3D の機能と拡散ベースの画像編集を組み合わせて動作します。
結果と実験により、ベースラインを上回り、2D と 3D の両方で妥当な保持オブジェクトを生成できることがわかりました。
私たちの実験は、私たちの方法が 3D と 2D の両方で保持オブジェクト合成の高品質と妥当性を達成することを示しています。
要約(オリジナル)
Grasping is an important human activity that has long been studied in robotics, computer vision, and cognitive science. Most existing works study grasping from the perspective of synthesizing hand poses conditioned on 3D or 2D object representations. We propose GenHeld to address the inverse problem of synthesizing held objects conditioned on 3D hand model or 2D image. Given a 3D model of hand, GenHeld 3D can select a plausible held object from a large dataset using compact object representations called object codes.The selected object is then positioned and oriented to form a plausible grasp without changing hand pose. If only a 2D hand image is available, GenHeld 2D can edit this image to add or replace a held object. GenHeld 2D operates by combining the abilities of GenHeld 3D with diffusion-based image editing. Results and experiments show that we outperform baselines and can generate plausible held objects in both 2D and 3D. Our experiments demonstrate that our method achieves high quality and plausibility of held object synthesis in both 3D and 2D.
arxiv情報
著者 | Chaerin Min,Srinath Sridhar |
発行日 | 2024-06-10 17:23:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google