要約
動的な都市シーンの再構築は、その本質的な幾何学的構造と時空間ダイナミクスに起因する重大な課題を提示する。潜在的に動いている領域に関する事前分布を利用せずに動的な都市シーンをモデル化しようとする既存の手法は、多くの場合、最適とは言えない結果をもたらします。一方、手作業による3Dアノテーションに基づくアプローチでは、再構成品質は向上するが、ラベリングに手間がかかるため実用的ではない。本論文では、動的ガウシアンと静的ガウシアンを分類し、空間的次元と時間的次元を統合して都市シーンを表現するための2Dセマンティックマップの可能性を再検討する。Urban4Dを紹介する。Urban4Dは、深い2Dセマンティックマップ生成の進歩に触発された、セマンティックガイド付き分解戦略を採用する新しいフレームワークである。我々のアプローチは、信頼性の高いセマンティックガウシアンを用いて、潜在的に動的なオブジェクトを区別する。動的オブジェクトを明示的にモデル化するために、我々は直感的で効果的な4Dガウススプラッティング(4DGS)表現を提案し、各ガウスの学習可能な時間埋め込みを通して時間情報を集約し、多層パーセプトロン(MLP)を用いて所望のタイムスタンプにおける変形を予測する。また、より正確な静的再構成のために、k-nearest neighbor (KNN)に基づく整合性正則化を設計し、テクスチャの少ない地表面を取り扱う。実世界のデータセットを用いた広範な実験により、Urban4Dは、従来の最先端手法と同等以上の品質を達成するだけでなく、静的要素の視覚的忠実度を高く維持しながら、動的オブジェクトを効果的にキャプチャできることが実証された。
要約(オリジナル)
Reconstructing dynamic urban scenes presents significant challenges due to their intrinsic geometric structures and spatiotemporal dynamics. Existing methods that attempt to model dynamic urban scenes without leveraging priors on potentially moving regions often produce suboptimal results. Meanwhile, approaches based on manual 3D annotations yield improved reconstruction quality but are impractical due to labor-intensive labeling. In this paper, we revisit the potential of 2D semantic maps for classifying dynamic and static Gaussians and integrating spatial and temporal dimensions for urban scene representation. We introduce Urban4D, a novel framework that employs a semantic-guided decomposition strategy inspired by advances in deep 2D semantic map generation. Our approach distinguishes potentially dynamic objects through reliable semantic Gaussians. To explicitly model dynamic objects, we propose an intuitive and effective 4D Gaussian splatting (4DGS) representation that aggregates temporal information through learnable time embeddings for each Gaussian, predicting their deformations at desired timestamps using a multilayer perceptron (MLP). For more accurate static reconstruction, we also design a k-nearest neighbor (KNN)-based consistency regularization to handle the ground surface due to its low-texture characteristic. Extensive experiments on real-world datasets demonstrate that Urban4D not only achieves comparable or better quality than previous state-of-the-art methods but also effectively captures dynamic objects while maintaining high visual fidelity for static elements.
arxiv情報
著者 | Ziwen Li,Jiaxin Huang,Runnan Chen,Yunlong Che,Yandong Guo,Tongliang Liu,Fakhri Karray,Mingming Gong |
発行日 | 2024-12-04 16:59:49+00:00 |
arxivサイト | arxiv_id(pdf) |