Self-Calibrating 4D Novel View Synthesis from Monocular Videos Using Gaussian Splatting

要約

ガウス スプラッティング (GS) は、特に動的シーンにおいて、ニューラル ラディアンス フィールド (NeRF) と比較して、シーンの再構成効率と新規ビュー合成 (NVS) の精度が大幅に向上しました。
ただし、現在の 4D NVS 手法は、GS ベースであるか NeRF ベースであるかにかかわらず、主に COLMAP によって提供されるカメラ パラメーターに依存しており、初期化には COLMAP によって生成された疎な点群も利用されており、精度に欠けるだけでなく時間がかかります。
これにより、特に大きなオブジェクトの動きや極端なカメラ条件があるシーンでは、動的シーンの表現が不十分になることがあります。
小さな平行移動と大きな回転を組み合わせます。
一部の研究では、既製のモデルから得られる深度、オプティカル フローなどの追加情報によって監視され、カメラ パラメーターとシーンの推定を同時に最適化します。
この未検証の情報をグラウンド トゥルースとして使用すると、堅牢性と精度が低下する可能性があります。これは、長い単眼ビデオ (たとえば、数百フレーム以上) で頻繁に発生します。
私たちは、カメラ パラメーターの自己校正を使用して高忠実度の 4D GS シーン表現を学習する新しいアプローチを提案します。
これには、3D 構造を堅牢に表現する 2D ポイント フィーチャの抽出と、その後のカメラ パラメータと 3D 構造の総合的な 4D シーン最適化に向けた共同最適化へのそれらの使用が含まれます。
私たちは、いくつかの標準ベンチマークにおける広範な定量的および定性的な実験結果を通じて、私たちの方法の精度と時間効率を実証します。
結果は、4D 新規ビュー合成の最先端の方法に比べて大幅な改善が見られたことを示しています。
ソースコードは https://github.com/fangli333/SC-4DGS で間もなく公開される予定です。

要約(オリジナル)

Gaussian Splatting (GS) has significantly elevated scene reconstruction efficiency and novel view synthesis (NVS) accuracy compared to Neural Radiance Fields (NeRF), particularly for dynamic scenes. However, current 4D NVS methods, whether based on GS or NeRF, primarily rely on camera parameters provided by COLMAP and even utilize sparse point clouds generated by COLMAP for initialization, which lack accuracy as well are time-consuming. This sometimes results in poor dynamic scene representation, especially in scenes with large object movements, or extreme camera conditions e.g. small translations combined with large rotations. Some studies simultaneously optimize the estimation of camera parameters and scenes, supervised by additional information like depth, optical flow, etc. obtained from off-the-shelf models. Using this unverified information as ground truth can reduce robustness and accuracy, which does frequently occur for long monocular videos (with e.g. > hundreds of frames). We propose a novel approach that learns a high-fidelity 4D GS scene representation with self-calibration of camera parameters. It includes the extraction of 2D point features that robustly represent 3D structure, and their use for subsequent joint optimization of camera parameters and 3D structure towards overall 4D scene optimization. We demonstrate the accuracy and time efficiency of our method through extensive quantitative and qualitative experimental results on several standard benchmarks. The results show significant improvements over state-of-the-art methods for 4D novel view synthesis. The source code will be released soon at https://github.com/fangli333/SC-4DGS.

arxiv情報

著者 Fang Li,Hao Zhang,Narendra Ahuja
発行日 2024-07-11 15:02:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク