Street Gaussians for Modeling Dynamic Urban Scenes

要約

この論文は、単眼ビデオからダイナミックな都市街路シーンをモデル化するという問題に取り組むことを目的としています。
最近の手法では、追跡された車両のポーズを組み込んで車両をアニメーション化することで NeRF を拡張し、動的な都市のストリート シーンのフォトリアリスティックなビュー合成を可能にしています。
ただし、トレーニングとレンダリングの速度が遅いことと、追跡された車両のポーズに高精度が不可欠であることが大きな制限となります。
これらすべての制限に対処する新しい明示的なシーン表現であるストリート ガウスを紹介します。
具体的には、ダイナミックな都市街路は、セマンティック ロジットと 3D ガウシアンを備えた一連の点群として表され、それぞれが前景の車両または背景のいずれかに関連付けられます。
前景オブジェクトの車両のダイナミクスをモデル化するために、各オブジェクト点群は、動的外観のための動的球面調和モデルとともに、最適化可能な追跡ポーズで最適化されます。
明示的な表現により、オブジェクト車両と背景を簡単に構成できるため、トレーニングの 30 分以内にシーン編集操作と 133 FPS (解像度 1066$\times$1600) でのレンダリングが可能になります。
提案された手法は、KITTI や Waymo Open データセットを含む複数の困難なベンチマークで評価されます。
実験では、提案された方法がすべてのデータセットにわたって一貫して最先端の方法よりも優れていることが示されています。
さらに、提案された表現は、既製のトラッカーからのポーズのみに依存しているにもかかわらず、正確なグラウンドトゥルース ポーズを使用して達成されるパフォーマンスと同等のパフォーマンスを実現します。
コードは https://zju3dv.github.io/street_gaussians/ で入手できます。

要約(オリジナル)

This paper aims to tackle the problem of modeling dynamic urban street scenes from monocular videos. Recent methods extend NeRF by incorporating tracked vehicle poses to animate vehicles, enabling photo-realistic view synthesis of dynamic urban street scenes. However, significant limitations are their slow training and rendering speed, coupled with the critical need for high precision in tracked vehicle poses. We introduce Street Gaussians, a new explicit scene representation that tackles all these limitations. Specifically, the dynamic urban street is represented as a set of point clouds equipped with semantic logits and 3D Gaussians, each associated with either a foreground vehicle or the background. To model the dynamics of foreground object vehicles, each object point cloud is optimized with optimizable tracked poses, along with a dynamic spherical harmonics model for the dynamic appearance. The explicit representation allows easy composition of object vehicles and background, which in turn allows for scene editing operations and rendering at 133 FPS (1066$\times$1600 resolution) within half an hour of training. The proposed method is evaluated on multiple challenging benchmarks, including KITTI and Waymo Open datasets. Experiments show that the proposed method consistently outperforms state-of-the-art methods across all datasets. Furthermore, the proposed representation delivers performance on par with that achieved using precise ground-truth poses, despite relying only on poses from an off-the-shelf tracker. The code is available at https://zju3dv.github.io/street_gaussians/.

arxiv情報

著者 Yunzhi Yan,Haotong Lin,Chenxu Zhou,Weijie Wang,Haiyang Sun,Kun Zhan,Xianpeng Lang,Xiaowei Zhou,Sida Peng
発行日 2024-01-02 18:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク