TFS-NeRF: Template-Free NeRF for Semantic 3D Reconstruction of Dynamic Scene

要約

3D サーフェス再構築のための Neural Implicit モデルの進歩にもかかわらず、任意の剛体、非剛体、または変形可能なエンティティを含む動的環境を処理することは依然として困難です。
多くのテンプレートベースの手法は人間に焦点を当てたエンティティ固有のものですが、そのような動的なシーンに適応できる一般的な再構成手法は、多くの場合、深度やオプティカル フローなどの追加入力を必要としたり、妥当な結果を得るために事前にトレーニングされた画像の特徴に依存したりする必要があります。
これらの方法では通常、潜在コードを使用してフレームごとの変形をキャプチャします。
対照的に、一部のテンプレートを使用しないメソッドは、これらの要件を回避し、変形可能なオブジェクトの動きを詳細に表現するために従来の LBS (リニア ブレンド スキニング) ウェイトを採用しますが、複雑な最適化が必要であり、トレーニング時間が長くなります。
この目的を達成するため、この文書では、改善策として、まばらなビデオまたはシングルビュー RGB ビデオからキャプチャされた動的シーン用のテンプレートフリーの 3D セマンティック NeRF である TFS-NeRF を紹介します。これは、さまざまなエンティティ間のインタラクションを特徴とし、他の LBS ベースよりも時間効率が優れています。
近づいてきます。
私たちのフレームワークは LBS 予測に反転ニューラル ネットワーク (INN) を使用し、トレーニング プロセスを簡素化します。
複数のエンティティの動きを解きほぐし、エンティティごとのスキニング ウェイトを最適化することにより、私たちの方法は正確で意味的に分離可能なジオメトリを効率的に生成します。
広範な実験により、私たちのアプローチは、既存の方法と比較してトレーニング効率が向上し、複雑な相互作用における変形可能なオブジェクトと変形不可能なオブジェクトの両方の高品質な再構成が生成されることが実証されています。

要約(オリジナル)

Despite advancements in Neural Implicit models for 3D surface reconstruction, handling dynamic environments with arbitrary rigid, non-rigid, or deformable entities remains challenging. Many template-based methods are entity-specific, focusing on humans, while generic reconstruction methods adaptable to such dynamic scenes often require additional inputs like depth or optical flow or rely on pre-trained image features for reasonable outcomes. These methods typically use latent codes to capture frame-by-frame deformations. In contrast, some template-free methods bypass these requirements and adopt traditional LBS (Linear Blend Skinning) weights for a detailed representation of deformable object motions, although they involve complex optimizations leading to lengthy training times. To this end, as a remedy, this paper introduces TFS-NeRF, a template-free 3D semantic NeRF for dynamic scenes captured from sparse or single-view RGB videos, featuring interactions among various entities and more time-efficient than other LBS-based approaches. Our framework uses an Invertible Neural Network (INN) for LBS prediction, simplifying the training process. By disentangling the motions of multiple entities and optimizing per-entity skinning weights, our method efficiently generates accurate, semantically separable geometries. Extensive experiments demonstrate that our approach produces high-quality reconstructions of both deformable and non-deformable objects in complex interactions, with improved training efficiency compared to existing methods.

arxiv情報

著者 Sandika Biswas,Qianyi Wu,Biplab Banerjee,Hamid Rezatofighi
発行日 2024-11-06 09:50:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク