要約
我々は、野生の複数のRGBシーケンスからカメラポーズと未知の物体の4D再構成を同時に復元するための粗いから細かい神経変形モデルを提示します。
そのために、私たちのアプローチは、事前に構築された 3D テンプレートや 3D トレーニング データ、および制御された照明条件を考慮せず、自己監視された方法で問題を解決できます。
私たちのモデルは、粗いコンポーネントと細かいコンポーネントの両方が考慮される正準空間と画像バリアント空間を利用します。
時空間の一貫性を備えたニューラルローカル二次モデルを導入して、シーケンス間の対応を確立するために正準埋め込みと組み合わせて細かい詳細をエンコードします。
私たちは、複雑で現実世界の変形を伴う困難なシナリオでこの方法を徹底的に検証し、定量的および定性的な評価、アブレーション研究、および競合するアプローチとの比較を提供します。
私たちのプロジェクトは https://github.com/smontode24/4DPV で入手できます。
要約(オリジナル)
We present a coarse-to-fine neural deformation model to simultaneously recover the camera pose and the 4D reconstruction of an unknown object from multiple RGB sequences in the wild. To that end, our approach does not consider any pre-built 3D template nor 3D training data as well as controlled illumination conditions, and can sort out the problem in a self-supervised manner. Our model exploits canonical and image-variant spaces where both coarse and fine components are considered. We introduce a neural local quadratic model with spatio-temporal consistency to encode fine details that is combined with canonical embeddings in order to establish correspondences across sequences. We thoroughly validate the method on challenging scenarios with complex and real-world deformations, providing both quantitative and qualitative evaluations, an ablation study and a comparison with respect to competing approaches. Our project is available at https://github.com/smontode24/4DPV.
arxiv情報
著者 | Sergio M. de Paco,Antonio Agudo |
発行日 | 2024-11-15 15:31:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google