要約
この論文では、単一の RGB 画像から 3D 手オブジェクト シーンを再構成する前に手オブジェクトのインタラクションを学習する方法を紹介します。
3D 手と物体シーンの再構成のための推論とトレーニング データの生成は、単一画像の深さの曖昧さと、手と物体によるオクルージョンのため、困難を伴います。
私たちは、手の形状を利用して手とオブジェクトのジオメトリの可能な相対構成を制限することで、この課題をチャンスに変えます。
3D の手の形状の特徴と 2D オブジェクトの特徴の相関を明示的にエンコードして、手とオブジェクトのシーンのジオメトリを予測する、一般化可能な暗黙関数 HandNeRF を設計します。
実世界のデータセットでの実験により、HandNeRF が同等の方法よりも正確に新しい把握構成の手オブジェクト シーンを再構築できることを示します。
さらに、HandNeRF からのオブジェクトの再構築により、ロボットによるハンドオーバーのための把握などの下流タスクのより正確な実行が保証されることを実証します。
要約(オリジナル)
This paper presents a method to learn hand-object interaction prior for reconstructing a 3D hand-object scene from a single RGB image. The inference as well as training-data generation for 3D hand-object scene reconstruction is challenging due to the depth ambiguity of a single image and occlusions by the hand and object. We turn this challenge into an opportunity by utilizing the hand shape to constrain the possible relative configuration of the hand and object geometry. We design a generalizable implicit function, HandNeRF, that explicitly encodes the correlation of the 3D hand shape features and 2D object features to predict the hand and object scene geometry. With experiments on real-world datasets, we show that HandNeRF is able to reconstruct hand-object scenes of novel grasp configurations more accurately than comparable methods. Moreover, we demonstrate that object reconstruction from HandNeRF ensures more accurate execution of a downstream task, such as grasping for robotic hand-over.
arxiv情報
著者 | Hongsuk Choi,Nikhil Chavan-Dafle,Jiacheng Yuan,Volkan Isler,Hyunsoo Park |
発行日 | 2023-09-14 17:42:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google