EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

要約

EmerNeRFは、動的な運転シーンの空間-時間表現を学習するためのシンプルかつ強力なアプローチである。EmerNeRFは神経場に基づき、自己ブートストラップにより、シーンの形状、外観、動き、意味を同時に捉える。EmerNeRFは2つの核となるコンポーネントによって成り立っている:まず、シーンを静的場と動的場に分解する。この分解は、純粋に自己監視から生まれ、我々のモデルが一般的な野生のデータソースから学習することを可能にする。第二に、EmerNeRFは動的フィールドから誘導されるフローフィールドをパラメータ化し、このフローフィールドを使用してマルチフレーム特徴をさらに集約し、動的オブジェクトのレンダリング精度を増幅する。これらの3つのフィールド(静的、動的、フロー)を結合することで、EmerNeRFは、グランドトゥルースのオブジェクト注釈や、動的オブジェクトのセグメンテーションやオプティカルフロー推定のための事前訓練されたモデルに依存することなく、高度に動的なシーンを自己完結的に表現することができる。我々の手法はセンサシミュレーションにおいて最先端の性能を達成し、静的シーン(+2.93 PSNR)と動的シーン(+3.70 PSNR)の再構成において、従来の手法を大幅に上回る。さらに、EmerNeRFの意味的汎化を強化するために、2次元視覚基盤モデルの特徴を4次元時空に持ち上げ、現代のトランスフォーマーにおける一般的な位置バイアスに対処し、3次元知覚性能を大幅に向上させる(例えば、占有予測精度が平均で37.50%相対的に向上)。最後に、多様で挑戦的な120シーケンスのデータセットを構築し、極端で高度に動的な設定下での神経場のベンチマークを行う。

要約(オリジナル)

We present EmerNeRF, a simple yet powerful approach for learning spatial-temporal representations of dynamic driving scenes. Grounded in neural fields, EmerNeRF simultaneously captures scene geometry, appearance, motion, and semantics via self-bootstrapping. EmerNeRF hinges upon two core components: First, it stratifies scenes into static and dynamic fields. This decomposition emerges purely from self-supervision, enabling our model to learn from general, in-the-wild data sources. Second, EmerNeRF parameterizes an induced flow field from the dynamic field and uses this flow field to further aggregate multi-frame features, amplifying the rendering precision of dynamic objects. Coupling these three fields (static, dynamic, and flow) enables EmerNeRF to represent highly-dynamic scenes self-sufficiently, without relying on ground truth object annotations or pre-trained models for dynamic object segmentation or optical flow estimation. Our method achieves state-of-the-art performance in sensor simulation, significantly outperforming previous methods when reconstructing static (+2.93 PSNR) and dynamic (+3.70 PSNR) scenes. In addition, to bolster EmerNeRF’s semantic generalization, we lift 2D visual foundation model features into 4D space-time and address a general positional bias in modern Transformers, significantly boosting 3D perception performance (e.g., 37.50% relative improvement in occupancy prediction accuracy on average). Finally, we construct a diverse and challenging 120-sequence dataset to benchmark neural fields under extreme and highly-dynamic settings.

arxiv情報

著者 Jiawei Yang,Boris Ivanovic,Or Litany,Xinshuo Weng,Seung Wook Kim,Boyi Li,Tong Che,Danfei Xu,Sanja Fidler,Marco Pavone,Yue Wang
発行日 2023-11-03 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク