要約
手と物体の形状を共同で推定することで、人間からロボットへのハンドオーバーにおける把持タスクが容易になる。しかし、物体の幾何学的構造に関する手作業で作られた事前知識に依存することは、未見の物体に一般化する際に失敗し、深度センサは飲料グラスのような透明な物体を検出できない。本研究では、単一視点再構成を確率的に結合してコヒーレントなステレオ再構成を形成する、手指物体再構成のためのステレオベースの手法を提案する。本手法が一般化可能であることを保証するために、大規模な合成手指物体データセットから3D形状事前分布を学習し、透明物体をより良く捉えるためにRGB入力を用いる。本手法は、既存のRGBベースの手オブジェクト再構成手法と比較し、シングルビューとステレオ設定において、オブジェクトの面取り距離を減少させることを示す。再構成された手指オブジェクト形状を、投影ベースの外れ値除去ステップで処理し、その出力を用いて、ワイドベースラインステレオRGBカメラを用いた人間からロボットへのハンドオーバーパイプラインをガイドする。我々の手オブジェクト再構成により、ロボットは人間から多様な家庭用オブジェクトを受け取ることができる。
要約(オリジナル)
Jointly estimating hand and object shape facilitates the grasping task in human-to-robot handovers. However, relying on hand-crafted prior knowledge about the geometric structure of the object fails when generalising to unseen objects, and depth sensors fail to detect transparent objects such as drinking glasses. In this work, we propose a stereo-based method for hand-object reconstruction that combines single-view reconstructions probabilistically to form a coherent stereo reconstruction. We learn 3D shape priors from a large synthetic hand-object dataset to ensure that our method is generalisable, and use RGB inputs to better capture transparent objects. We show that our method reduces the object Chamfer distance compared to existing RGB based hand-object reconstruction methods on single view and stereo settings. We process the reconstructed hand-object shape with a projection-based outlier removal step and use the output to guide a human-to-robot handover pipeline with wide-baseline stereo RGB cameras. Our hand-object reconstruction enables a robot to successfully receive a diverse range of household objects from the human.
arxiv情報
著者 | Yik Lung Pang,Alessio Xompero,Changjae Oh,Andrea Cavallaro |
発行日 | 2025-03-03 14:04:23+00:00 |
arxivサイト | arxiv_id(pdf) |