要約
大規模で複雑な動きを伴うダイナミックなシーンの再構築は、依然として大きな課題である。Neural Radiance Fieldsや3D Gaussian Splatting (3DGS)のような最近の技術は有望であるが、大きな動きを伴うシーンではまだ苦労している。本論文では、3DGSに基づく新しい手法であり、特に高度に動的なシーンを表現し再構成するために設計されたRelayGSを提案する。我々のRelayGSは、正統的な3次元ガウシアンとコンパクトな動き場を持つ完全な4次元表現を学習し、3つの段階から構成される。まず、時間的なシーンの変化を無視して、全てのフレームから基本的な3DGSを学習し、学習可能なマスクを用いて、動きの少ない背景から動きの激しい前景を分離する。第二に、第一段階から分離された前景ガウシアンを複数複製し、それぞれが時間セグメントに対応し、各セグメント内の複数のフレームから構築された擬似ビューを用いて最適化する。これらのガウシアンはリレーガウシアンと呼ばれ、明示的な中継ノードとして機能し、大規模な動きの軌跡を単純化し、管理可能な小さなセグメントに分割する。最後に、シーンの時間的な動きを共同で学習し、最初の2つの段階から学習された正統的なガウシアンを改良する。その結果、我々のRelayGSは、PSNRで1dB以上最先端技術を凌駕し、実世界のバスケットボールの試合シーンを、より完全で首尾一貫した方法で再構成することに成功した。コードは https://github.com/gqk/RelayGS で公開される。
要約(オリジナル)
Reconstructing dynamic scenes with large-scale and complex motions remains a significant challenge. Recent techniques like Neural Radiance Fields and 3D Gaussian Splatting (3DGS) have shown promise but still struggle with scenes involving substantial movement. This paper proposes RelayGS, a novel method based on 3DGS, specifically designed to represent and reconstruct highly dynamic scenes. Our RelayGS learns a complete 4D representation with canonical 3D Gaussians and a compact motion field, consisting of three stages. First, we learn a fundamental 3DGS from all frames, ignoring temporal scene variations, and use a learnable mask to separate the highly dynamic foreground from the minimally moving background. Second, we replicate multiple copies of the decoupled foreground Gaussians from the first stage, each corresponding to a temporal segment, and optimize them using pseudo-views constructed from multiple frames within each segment. These Gaussians, termed Relay Gaussians, act as explicit relay nodes, simplifying and breaking down large-scale motion trajectories into smaller, manageable segments. Finally, we jointly learn the scene’s temporal motion and refine the canonical Gaussians learned from the first two stages. We conduct thorough experiments on two dynamic scene datasets featuring large and complex motions, where our RelayGS outperforms state-of-the-arts by more than 1 dB in PSNR, and successfully reconstructs real-world basketball game scenes in a much more complete and coherent manner, whereas previous methods usually struggle to capture the complex motion of players. Code will be publicly available at https://github.com/gqk/RelayGS
arxiv情報
著者 | Qiankun Gao,Yanmin Wu,Chengxiang Wen,Jiarui Meng,Luyang Tang,Jie Chen,Ronggang Wang,Jian Zhang |
発行日 | 2024-12-03 15:08:03+00:00 |
arxivサイト | arxiv_id(pdf) |