Stereo Hand-Object Reconstruction for Human-to-Robot Handover

要約

手と物体の形状を共同推定することで、人間からロボットへの引き継ぎにおいてロボットの把握を確実に成功させることができます。
ただし、物体の幾何学的構造に関する手作りの事前知識に頼ることは、目に見えない物体に一般化する場合に失敗し、深度センサーはグラスなどの透明な物体を検出できません。
この研究では、単一ビュー再構成を確率的に組み合わせてコヒーレントなステレオ再構成を形成する、手オブジェクト再構成のためのステレオベースの方法を提案します。
大規模な合成手オブジェクト データセットから 3D 形状事前分布を学習して、手法が一般化可能であることを確認し、RGB は透明なオブジェクトをより適切にキャプチャできるため、深さの代わりに RGB 入力を使用します。
私たちの方法は、単一ビューおよびステレオ設定で既存の RGB ベースの手オブジェクト再構成方法と比較して、より低いオブジェクト面取り距離を達成することを示します。
再構成された手オブジェクトの形状を投影ベースの外れ値除去ステップで処理し、その出力を使用して、ワイドベースラインのステレオ RGB カメラによる人間からロボットへのハンドオーバー パイプラインをガイドします。
私たちの手オブジェクトの再構築により、ロボットは人間からさまざまな家庭用品を正常に受け取ることができます。

要約(オリジナル)

Jointly estimating hand and object shape ensures the success of the robot grasp in human-to-robot handovers. However, relying on hand-crafted prior knowledge about the geometric structure of the object fails when generalising to unseen objects, and depth sensors fail to detect transparent objects such as drinking glasses. In this work, we propose a stereo-based method for hand-object reconstruction that combines single-view reconstructions probabilistically to form a coherent stereo reconstruction. We learn 3D shape priors from a large synthetic hand-object dataset to ensure that our method is generalisable, and use RGB inputs instead of depth as RGB can better capture transparent objects. We show that our method achieves a lower object Chamfer distance compared to existing RGB based hand-object reconstruction methods on single view and stereo settings. We process the reconstructed hand-object shape with a projection-based outlier removal step and use the output to guide a human-to-robot handover pipeline with wide-baseline stereo RGB cameras. Our hand-object reconstruction enables a robot to successfully receive a diverse range of household objects from the human.

arxiv情報

著者 Yik Lung Pang,Alessio Xompero,Changjae Oh,Andrea Cavallaro
発行日 2024-12-10 13:12:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク