Extrapolated Urban View Synthesis Benchmark

要約

フォトリアリスティックなシミュレーターは、ビジョン中心の自動運転車 (AV) のトレーニングと評価に不可欠です。
その中核となるのは Novel View Synthesis (NVS) です。これは、AV の広範かつ連続的なポーズ分布に対応するために、目に見えない多様な視点を生成する重要な機能です。
3D ガウス スプラッティングなどの放射フィールドの最近の進歩は、リアルタイムの速度でフォトリアリスティックなレンダリングを実現し、大規模な運転シーンのモデリングに広く使用されています。
ただし、そのパフォーマンスは一般に、相関性の高いトレーニング ビューとテスト ビューを備えた補間設定を使用して評価されます。
対照的に、テスト ビューがトレーニング ビューから大きく逸脱する外挿は依然として研究されておらず、一般化可能なシミュレーション テクノロジの進歩を制限しています。
このギャップに対処するために、私たちは複数の横断、複数の車両、複数のカメラを備えた公開されている AV データセットを活用して、最初の Extrapolated Urban View Synthesis (EUVS) ベンチマークを構築しました。
一方、私たちは、さまざまな難易度にわたって最先端のガウス スプラッティング手法の定量的および定性的な評価を実施します。
私たちの結果は、ガウス スプラッティングがトレーニング ビューに過剰適合する傾向があることを示しています。
さらに、拡散事前分布を組み込んでジオメトリを改善しても、大規模なビュー変更の下では NVS を根本的に改善することはできず、より堅牢なアプローチと大規模なトレーニングの必要性が強調されています。
私たちは、自動運転および都市ロボットのシミュレーション技術の進歩に役立つデータを公開しました。

要約(オリジナル)

Photorealistic simulators are essential for the training and evaluation of vision-centric autonomous vehicles (AVs). At their core is Novel View Synthesis (NVS), a crucial capability that generates diverse unseen viewpoints to accommodate the broad and continuous pose distribution of AVs. Recent advances in radiance fields, such as 3D Gaussian Splatting, achieve photorealistic rendering at real-time speeds and have been widely used in modeling large-scale driving scenes. However, their performance is commonly evaluated using an interpolated setup with highly correlated training and test views. In contrast, extrapolation, where test views largely deviate from training views, remains underexplored, limiting progress in generalizable simulation technology. To address this gap, we leverage publicly available AV datasets with multiple traversals, multiple vehicles, and multiple cameras to build the first Extrapolated Urban View Synthesis (EUVS) benchmark. Meanwhile, we conduct quantitative and qualitative evaluations of state-of-the-art Gaussian Splatting methods across different difficulty levels. Our results show that Gaussian Splatting is prone to overfitting to training views. Besides, incorporating diffusion priors and improving geometry cannot fundamentally improve NVS under large view changes, highlighting the need for more robust approaches and large-scale training. We have released our data to help advance self-driving and urban robotics simulation technology.

arxiv情報

著者 Xiangyu Han,Zhen Jia,Boyi Li,Yan Wang,Boris Ivanovic,Yurong You,Lingjie Liu,Yue Wang,Marco Pavone,Chen Feng,Yiming Li
発行日 2024-12-06 18:41:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク