A Large-Scale Outdoor Multi-modal Dataset and Benchmark for Novel View Synthesis and Implicit Scene Reconstruction

要約

Neural Radiance Fields (NeRF) は、DTU、BMVS、および NeRF Synthetic のような多くの単一モダリティおよび単一オブジェクトに焦点を当てた屋内シーン データセットで実証された、単一オブジェクト シーンの再構成および新しいビュー合成において印象的な結果を達成しました。
大規模な屋外シーンの再構成に関する研究はまだ限られています。これは、データ取得とキャリブレーションのコストが高いため、大規模な NeRF 評価用の統一された屋外シーン データセットがないためです。
この論文では、大規模な屋外マルチモーダル データセット、OMMO データセットを提案します。OMMO データセットには、キャリブレーションされた画像、点群、プロンプト アノテーションを含む複雑な土地オブジェクトとシーンが含まれています。
一方、新しいビュー合成、表面再構成、マルチモーダル NeRF など、いくつかの屋外 NeRF ベースのタスクの新しいベンチマークが確立されています。
データセットを作成するために、多数の実際のフライビュー ビデオをキャプチャして収集し、それらから高品質で高解像度のクリップを選択します。
次に、品質レビュー モジュールを設計して、学習ベースの自動評価と手動レビューにより、画像を改良し、低品質のフレームを削除し、シーンのキャリブレーションに失敗します。
最後に、将来の潜在的なマルチモーダル要件を満たすために、各シーンとキーフレームのテキスト説明を追加するために多くのボランティアが採用されています。
既存の NeRF データセットと比較して、私たちのデータセットには、さまざまな縮尺、カメラの軌跡、および照明条件を備えた現実世界の都市および自然のシーンが豊富に含まれています。
実験は、私たちのデータセットがさまざまなタスクで最先端の NeRF メソッドのベンチマークを実行できることを示しています。
データセットとモデルの重みをすぐにリリースします。

要約(オリジナル)

Neural Radiance Fields (NeRF) has achieved impressive results in single object scene reconstruction and novel view synthesis, which have been demonstrated on many single modality and single object focused indoor scene datasets like DTU, BMVS, and NeRF Synthetic.However, the study of NeRF on large-scale outdoor scene reconstruction is still limited, as there is no unified outdoor scene dataset for large-scale NeRF evaluation due to expensive data acquisition and calibration costs. In this paper, we propose a large-scale outdoor multi-modal dataset, OMMO dataset, containing complex land objects and scenes with calibrated images, point clouds and prompt annotations. Meanwhile, a new benchmark for several outdoor NeRF-based tasks is established, such as novel view synthesis, surface reconstruction, and multi-modal NeRF. To create the dataset, we capture and collect a large number of real fly-view videos and select high-quality and high-resolution clips from them. Then we design a quality review module to refine images, remove low-quality frames and fail-to-calibrate scenes through a learning-based automatic evaluation plus manual review. Finally, a number of volunteers are employed to add the text descriptions for each scene and key-frame to meet the potential multi-modal requirements in the future. Compared with existing NeRF datasets, our dataset contains abundant real-world urban and natural scenes with various scales, camera trajectories, and lighting conditions. Experiments show that our dataset can benchmark most state-of-the-art NeRF methods on different tasks. We will release the dataset and model weights very soon.

arxiv情報

著者 Chongshan Lu,Fukun Yin,Xin Chen,Tao Chen,Gang YU,Jiayuan Fan
発行日 2023-01-17 10:15:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク