要約
自動運転シミュレーションでは、大規模な道路シーンの堅牢でリアルなレンダリングが不可欠です。
最近、3D ガウス スプラッティング (3D-GS) はニューラル レンダリングにおいて画期的な進歩を遂げましたが、大規模な道路シーンのレンダリングの一般的な忠実度は、入力画像によって制限されることがよくあります。入力画像は通常、視野が狭く、主に道路に焦点を当てています。
ストリートレベルのローカルエリア。
直観的には、ドローンの視点からのデータは、地上車両の視点からのデータを補完する視点を提供し、シーンの再構築とレンダリングの完全性を高めることができます。
ただし、大きな視野差を示す航空画像と地上画像を使って単純にトレーニングすると、3D-GS の収束に重大な課題が生じ、ロード ビューでのパフォーマンスの顕著な向上は実証されません。
道路ビューの新しいビュー合成を強化し、航空情報を効果的に使用するために、すべてのピクセルに重み付けするのではなく、地上画像の学習結果が不十分な領域の合成を航空画像が支援できるようにする不確実性を考慮したトレーニング方法を設計します。
以前の研究と同様に、3D-GS トレーニングでも同様です。
私たちは、カービュー アンサンブルベースのレンダリングの不確実性を航空画像に照合し、トレーニング プロセスへの各ピクセルの寄与を重み付けすることで、クロスビューの不確実性を 3D-GS に導入した最初の企業です。
さらに、評価指標を体系的に定量化するために、道路シーンの航空画像と地上画像の両方を含む高品質の合成データセットを組み立てます。
要約(オリジナル)
Robust and realistic rendering for large-scale road scenes is essential in autonomous driving simulation. Recently, 3D Gaussian Splatting (3D-GS) has made groundbreaking progress in neural rendering, but the general fidelity of large-scale road scene renderings is often limited by the input imagery, which usually has a narrow field of view and focuses mainly on the street-level local area. Intuitively, the data from the drone’s perspective can provide a complementary viewpoint for the data from the ground vehicle’s perspective, enhancing the completeness of scene reconstruction and rendering. However, training naively with aerial and ground images, which exhibit large view disparity, poses a significant convergence challenge for 3D-GS, and does not demonstrate remarkable improvements in performance on road views. In order to enhance the novel view synthesis of road views and to effectively use the aerial information, we design an uncertainty-aware training method that allows aerial images to assist in the synthesis of areas where ground images have poor learning outcomes instead of weighting all pixels equally in 3D-GS training like prior work did. We are the first to introduce the cross-view uncertainty to 3D-GS by matching the car-view ensemble-based rendering uncertainty to aerial images, weighting the contribution of each pixel to the training process. Additionally, to systematically quantify evaluation metrics, we assemble a high-quality synthesized dataset comprising both aerial and ground images for road scenes.
arxiv情報
著者 | Saining Zhang,Baijun Ye,Xiaoxue Chen,Yuantao Chen,Zongzheng Zhang,Cheng Peng,Yongliang Shi,Hao Zhao |
発行日 | 2024-08-27 17:59:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google