要約
ニューラルレンダリング方法は、2D画像から3Dシーンを再構築する能力に大きな注目を集めています。
核となるアイデアは、複数のビューを入力として取得し、ビュー全体のジオメトリと外観の不確実性を最小限に抑えることにより、再構築されたシーンを最適化することです。
ただし、再構成の品質は入力ビューの数によって制限されます。
この制限は、オブジェクトの特定の角度が見られない複雑で動的なシーンでさらに顕著です。
この論文では、神経レンダリングのデータ増強方法としてビデオフレーム補間を使用することを提案します。
さらに、軽量でありながら高品質のビデオフレーム補間モデルであるPS4PRO(フォトリアリックなレンダリングと最適化のためのピクセルからピクセルの監督)を設計します。
PS4PROは、多様なビデオデータセットでトレーニングされており、カメラの動きと現実世界の3Dジオメトリを暗黙的にモデリングします。
私たちのモデルは、3D再構成のための写真監督を豊かにする、暗黙の世界の事前として機能します。
提案された方法を活用することにより、神経レンダリング方法の既存のデータセットを効果的に強化します。
実験結果は、この方法が静的シーンと動的シーンの両方での再構成パフォーマンスを改善することを示しています。
要約(オリジナル)
Neural rendering methods have gained significant attention for their ability to reconstruct 3D scenes from 2D images. The core idea is to take multiple views as input and optimize the reconstructed scene by minimizing the uncertainty in geometry and appearance across the views. However, the reconstruction quality is limited by the number of input views. This limitation is further pronounced in complex and dynamic scenes, where certain angles of objects are never seen. In this paper, we propose to use video frame interpolation as the data augmentation method for neural rendering. Furthermore, we design a lightweight yet high-quality video frame interpolation model, PS4PRO (Pixel-to-pixel Supervision for Photorealistic Rendering and Optimization). PS4PRO is trained on diverse video datasets, implicitly modeling camera movement as well as real-world 3D geometry. Our model performs as an implicit world prior, enriching the photo supervision for 3D reconstruction. By leveraging the proposed method, we effectively augment existing datasets for neural rendering methods. Our experimental results indicate that our method improves the reconstruction performance on both static and dynamic scenes.
arxiv情報
著者 | Yezhi Shen,Qiuchen Zhai,Fengqing Zhu |
発行日 | 2025-05-28 17:35:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google