D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video

要約

非剛体変形シーンの動的再構成と時空間的な斬新な視点の合成は、最近ますます注目を集めています。
既存の研究では、マルチビュー カメラやテレポート カメラのセットアップで優れた品質とパフォーマンスを実現していますが、ほとんどの方法では、カジュアルな単眼キャプチャから動きや外観を効率的かつ忠実に復元することができません。
この論文は、スマートフォンで撮影した何気ない単眼映像から動的に新しい視点を合成する新しい手法を紹介することで、この分野に貢献します。
私たちのアプローチは、シーンを $\textit{動的ニューラル点群}$ として表現します。これは、静的領域と動的領域の別々のハッシュ エンコードされたニューラル フィーチャ グリッドにローカル ジオメトリと外観をエンコードする暗黙的な時間条件付き点分布です。
モデルから離散点群をサンプリングすることで、高速微分可能なラスタライザーとニューラル レンダリング ネットワークを使用して、高品質の新しいビューを効率的にレンダリングできます。
最近の研究と同様に、単眼の奥行き推定やオブジェクトのセグメンテーションなどのデータ駆動型の事前分析を組み込むことでニューラル シーン分析の進歩を活用し、単眼のキャプチャに起因する動きと奥行きの曖昧さを解決します。
最適化プロセスをガイドすることに加えて、これらの事前分布を利用してシーン表現を明示的に初期化し、最適化速度と最終的な画質を大幅に向上できることを示します。
実験的評価で証明されているように、当社の動的点群モデルは、インタラクティブ アプリケーションの高速最適化とリアルタイム フレーム レートを可能にするだけでなく、単眼ベンチマーク シーケンスで競争力のある画質を実現します。
私たちのプロジェクト ページは https://moritzkappel.github.io/projects/dnpc から入手できます。

要約(オリジナル)

Dynamic reconstruction and spatiotemporal novel-view synthesis of non-rigidly deforming scenes recently gained increased attention. While existing work achieves impressive quality and performance on multi-view or teleporting camera setups, most methods fail to efficiently and faithfully recover motion and appearance from casual monocular captures. This paper contributes to the field by introducing a new method for dynamic novel view synthesis from monocular video, such as casual smartphone captures. Our approach represents the scene as a $\textit{dynamic neural point cloud}$, an implicit time-conditioned point distribution that encodes local geometry and appearance in separate hash-encoded neural feature grids for static and dynamic regions. By sampling a discrete point cloud from our model, we can efficiently render high-quality novel views using a fast differentiable rasterizer and neural rendering network. Similar to recent work, we leverage advances in neural scene analysis by incorporating data-driven priors like monocular depth estimation and object segmentation to resolve motion and depth ambiguities originating from the monocular captures. In addition to guiding the optimization process, we show that these priors can be exploited to explicitly initialize our scene representation to drastically improve optimization speed and final image quality. As evidenced by our experimental evaluation, our dynamic point cloud model not only enables fast optimization and real-time frame rates for interactive applications, but also achieves competitive image quality on monocular benchmark sequences. Our project page is available at https://moritzkappel.github.io/projects/dnpc.

arxiv情報

著者 Moritz Kappel,Florian Hahlbohm,Timon Scholz,Susana Castillo,Christian Theobalt,Martin Eisemann,Vladislav Golyanik,Marcus Magnor
発行日 2024-06-14 14:35:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク