要約
手とオブジェクトのインタラクションのモデリングは、3D コンピューター ビジョンにおいて根本的に困難なタスクです。
この分野で達成された目覚ましい進歩にも関わらず、既存の方法は依然として手とオブジェクトのインタラクションをフォトリアリスティックに合成できず、手とオブジェクト間の重度の相互オクルージョンと不正確な手とオブジェクトのポーズによって引き起こされるレンダリング品質の低下に悩まされています。
推定。
これらの課題に取り組むために、まばらなビデオのセットから手とオブジェクトのインタラクションを再構築する、新しい自由視点レンダリング フレームワークである Neural Contact Radiance Field (NCRF) を紹介します。
特に、提案された NCRF フレームワークは 2 つの重要なコンポーネントで構成されます。 (a) 手と物体との間の望ましい接触を実現するために、3D クエリ ポイントから正確な接触フィールドを予測する接触最適化フィールド。
(b) 観察と正準の対応を生成するために特別に設計された手オブジェクトの運動フィールドと連携して、静的な正準空間における暗黙的な手オブジェクト表現を学習する手オブジェクトの神経放射フィールド。
私たちはこれらの重要なコンポーネントを共同で学習し、視覚的および幾何学的制約によって相互に助け合って規則化し、フォトリアリスティックな新しいビュー合成を達成する高品質の手オブジェクトの再構築を生成します。
HO3D および DexYCB データセットに関する広範な実験により、私たちのアプローチがレンダリング品質と姿勢推定精度の両方の点で現在の最先端技術を上回っていることが示されています。
要約(オリジナル)
Modeling hand-object interactions is a fundamentally challenging task in 3D computer vision. Despite remarkable progress that has been achieved in this field, existing methods still fail to synthesize the hand-object interaction photo-realistically, suffering from degraded rendering quality caused by the heavy mutual occlusions between the hand and the object, and inaccurate hand-object pose estimation. To tackle these challenges, we present a novel free-viewpoint rendering framework, Neural Contact Radiance Field (NCRF), to reconstruct hand-object interactions from a sparse set of videos. In particular, the proposed NCRF framework consists of two key components: (a) A contact optimization field that predicts an accurate contact field from 3D query points for achieving desirable contact between the hand and the object. (b) A hand-object neural radiance field to learn an implicit hand-object representation in a static canonical space, in concert with the specifically designed hand-object motion field to produce observation-to-canonical correspondences. We jointly learn these key components where they mutually help and regularize each other with visual and geometric constraints, producing a high-quality hand-object reconstruction that achieves photo-realistic novel view synthesis. Extensive experiments on HO3D and DexYCB datasets show that our approach outperforms the current state-of-the-art in terms of both rendering quality and pose estimation accuracy.
arxiv情報
著者 | Zhongqun Zhang,Jifei Song,Eduardo Pérez-Pellitero,Yiren Zhou,Hyung Jin Chang,Aleš Leonardis |
発行日 | 2024-02-09 13:00:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google