要約
ハンドオブジェクト再構築における最近の研究は、主にシングルビュー設定と高密度マルチビュー設定に焦点を当てています。
一方で、シングルビュー手法では、学習された形状事前情報を活用して、目に見えないオブジェクトに一般化できますが、オクルージョンにより不正確になる傾向があります。
一方、高密度マルチビュー手法は非常に正確ですが、さらにデータを収集しない限り、目に見えないオブジェクトに簡単に適応することはできません。
対照的に、スパース マルチビュー手法では、追加のビューを利用してオクルージョンに取り組むことができ、同時に高密度マルチビュー手法と比較して計算コストを低く抑えることができます。
この論文では、まばらなマルチビュー設定における目に見えないオブジェクトによる手のオブジェクトの再構成の問題を検討します。
同時にキャプチャされた手と物体の複数の RGB 画像を考慮すると、私たちのモデル SVHO は、複数のビューにわたる最適化を行わずに、各ビューからの予測を結合して統合された再構成を行います。
合成ハンドオブジェクト データセットでモデルをトレーニングし、目に見えないオブジェクトを含む現実世界で記録されたハンドオブジェクト データセットで直接評価します。
目に見えない手やオブジェクトを RGB から再構築するのは困難ですが、追加のビューが再構築の品質を向上させるのに役立つことを示します。
要約(オリジナル)
Recent works in hand-object reconstruction mainly focus on the single-view and dense multi-view settings. On the one hand, single-view methods can leverage learned shape priors to generalise to unseen objects but are prone to inaccuracies due to occlusions. On the other hand, dense multi-view methods are very accurate but cannot easily adapt to unseen objects without further data collection. In contrast, sparse multi-view methods can take advantage of the additional views to tackle occlusion, while keeping the computational cost low compared to dense multi-view methods. In this paper, we consider the problem of hand-object reconstruction with unseen objects in the sparse multi-view setting. Given multiple RGB images of the hand and object captured at the same time, our model SVHO combines the predictions from each view into a unified reconstruction without optimisation across views. We train our model on a synthetic hand-object dataset and evaluate directly on a real world recorded hand-object dataset with unseen objects. We show that while reconstruction of unseen hands and objects from RGB is challenging, additional views can help improve the reconstruction quality.
arxiv情報
著者 | Yik Lung Pang,Changjae Oh,Andrea Cavallaro |
発行日 | 2024-05-02 15:01:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google