XLD: A Cross-Lane Dataset for Benchmarking Novel Driving View Synthesis

要約

自律運転車の安全性を確保するには、シミュレーションによる自律システムの包括的なテストが不可欠です。
これには、これらのシナリオの多くが公道ではまれであるかめったに遭遇しないため、実際のデータ収集の制限を超えて拡張する安全性が批判的なシナリオの生成が必要です。
ただし、ほとんどの既存の新規ビュー合成(NVS)メソッドの評価は、トレーニングデータからの画像フレームの散発的なサンプリングに依存しており、レンダリングされた画像をグラウンドトゥルース画像と比較しています。
残念ながら、この評価プロトコルは、閉ループシミュレーションの実際の要件を満たすことはできません。
具体的には、真のアプリケーションには、現実の世界でキャプチャするのが難しい元の軌跡(架橋ビューなど)を超えて拡張する新しいビューをレンダリングする能力が必要です。
これに対処するために、このホワイトペーパーでは、自律運転シミュレーション用に特別に設計された新しい運転ビュー合成評価のための合成データセットを紹介します。
このユニークなデータセットには、トレーニングの軌跡から1〜4 $メーターで逸脱することによってキャプチャされた画像のテストが含まれています。
さまざまな時間や気象条件をカバーする6つのシーケンスで構成されています。
各シーケンスには、450ドルのトレーニング画像、120ドルのテスト画像、対応するカメラのポーズと本質的なパラメーターが含まれています。
この新しいデータセットを活用して、フロントのみおよびマルチカメラ設定の下で既存のNVSアプローチを評価するための最初の現実的なベンチマークを確立します。
実験的な調査結果は、現在のアプローチの大きなギャップを強調し、クロスレーンまたは閉ループシミュレーションの厳しい前提条件を満たすための不十分な能力を明らかにしています。

要約(オリジナル)

Comprehensive testing of autonomous systems through simulation is essential to ensure the safety of autonomous driving vehicles. This requires the generation of safety-critical scenarios that extend beyond the limitations of real-world data collection, as many of these scenarios are rare or rarely encountered on public roads. However, evaluating most existing novel view synthesis (NVS) methods relies on sporadic sampling of image frames from the training data, comparing the rendered images with ground-truth images. Unfortunately, this evaluation protocol falls short of meeting the actual requirements in closed-loop simulations. Specifically, the true application demands the capability to render novel views that extend beyond the original trajectory (such as cross-lane views), which are challenging to capture in the real world. To address this, this paper presents a synthetic dataset for novel driving view synthesis evaluation, which is specifically designed for autonomous driving simulations. This unique dataset includes testing images captured by deviating from the training trajectory by $1-4$ meters. It comprises six sequences that cover various times and weather conditions. Each sequence contains $450$ training images, $120$ testing images, and their corresponding camera poses and intrinsic parameters. Leveraging this novel dataset, we establish the first realistic benchmark for evaluating existing NVS approaches under front-only and multicamera settings. The experimental findings underscore the significant gap in current approaches, revealing their inadequate ability to fulfill the demanding prerequisites of cross-lane or closed-loop simulation.

arxiv情報

著者 Hao Li,Chenming Wu,Ming Yuan,Yan Zhang,Chen Zhao,Chunyu Song,Haocheng Feng,Errui Ding,Dingwen Zhang,Jingdong Wang
発行日 2025-05-07 15:25:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク