SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction

要約

最近の手とオブジェクトの相互作用データセットは、実際のオブジェクトの変動性が限られており、グラウンドトゥルースの手の形状を取得するために MANO パラメトリック モデルのフィッティングに依存しています。
これらの制限を超えてさらなる研究を促進するために、実際の詳細な手のオブジェクトの 3D テクスチャ メッシュで注釈が付けられた 96 個のビデオで構成される SHOWMe データセットを導入します。
最近の研究に従って、オブジェクトに対する手のポーズがビデオ シーケンス全体を通じて一定のままである、剛体手とオブジェクトのシナリオを検討します。
この仮定により、サブミリメートル精度のグラウンドトゥルース 3D スキャンを SHOWMe の画像シーケンスに登録できるようになります。
この仮説は単純ではありますが、人間とロボットのコラボレーションにおけるオブジェクトの受け渡し、オブジェクトのスキャン、操作と接触点の分析など、必要な精度と詳細レベルが重要となるアプリケーションの観点からは理にかなっています。
重要なのは、ハンドオブジェクト システムの剛性により、剛性レジストレーション ステップとそれに続くマルチビュー再構成 (MVR) 部分で構成される 2 段階のパイプラインを使用して、未知のハンドヘルド オブジェクトのビデオ ベースの 3D 再構成に取り組むことができるということです。
我々は、これら 2 つの段階の重要なベースラインのセットを慎重に評価し、SfM ツールボックスまたは手のポーズ推定器を使用して剛体変換を復元し、オフザ
シェルフ MVR アルゴリズム。
ただし、これらの方法は、オブジェクト上のテクスチャの欠如または手の重度の遮蔽により不正確になる可能性がある初期のカメラポーズ推定の影響を受けやすいため、再構築に改善の余地が残されています。
コードとデータセットは https://europe.naverlabs.com/research/showme で入手できます。

要約(オリジナル)

Recent hand-object interaction datasets show limited real object variability and rely on fitting the MANO parametric model to obtain groundtruth hand shapes. To go beyond these limitations and spur further research, we introduce the SHOWMe dataset which consists of 96 videos, annotated with real and detailed hand-object 3D textured meshes. Following recent work, we consider a rigid hand-object scenario, in which the pose of the hand with respect to the object remains constant during the whole video sequence. This assumption allows us to register sub-millimetre-precise groundtruth 3D scans to the image sequences in SHOWMe. Although simpler, this hypothesis makes sense in terms of applications where the required accuracy and level of detail is important eg., object hand-over in human-robot collaboration, object scanning, or manipulation and contact point analysis. Importantly, the rigidity of the hand-object systems allows to tackle video-based 3D reconstruction of unknown hand-held objects using a 2-stage pipeline consisting of a rigid registration step followed by a multi-view reconstruction (MVR) part. We carefully evaluate a set of non-trivial baselines for these two stages and show that it is possible to achieve promising object-agnostic 3D hand-object reconstructions employing an SfM toolbox or a hand pose estimator to recover the rigid transforms and off-the-shelf MVR algorithms. However, these methods remain sensitive to the initial camera pose estimates which might be imprecise due to lack of textures on the objects or heavy occlusions of the hands, leaving room for improvements in the reconstruction. Code and dataset are available at https://europe.naverlabs.com/research/showme

arxiv情報

著者 Anilkumar Swamy,Vincent Leroy,Philippe Weinzaepfel,Fabien Baradel,Salma Galaaoui,Romain Bregier,Matthieu Armando,Jean-Sebastien Franco,Gregory Rogez
発行日 2023-09-19 16:48:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.RO パーマリンク