Crowd-Sourced NeRF: Collecting Data from Production Vehicles for 3D Street View Reconstruction

要約

最近、Neural Radiance Fields (NeRF) が新しいビュー合成において目覚ましい成果を達成しました。
Block-NeRF は、NeRF を活用して大規模な都市規模のモデルを構築できる機能を示しました。
大規模なモデリングには大量の画像データが必要になります。
特別に設計されたデータ収集車両から画像を収集することは、大規模なアプリケーションをサポートできません。
大量の高品質データをどのように取得するかが依然として未解決の問題です。
自動車業界には膨大な量の画像データがあるため、大規模なデータ収集にはクラウドソーシングが便利な方法です。
このペーパーでは、量産車両によって取得された大量のデータを利用して NeRF モデルでシーンを再構築するクラウドソーシング フレームワークを紹介します。
このアプローチは、データがどこから来てどのように使用されるかという、大規模な再構築の重要な問題を解決します。
まず、クラウドソーシングされた大量のデータがフィルタリングされて冗長性が除去され、時間と空間の観点からバランスのとれた分散が維持されます。
次に、モーションから構造を作成するモジュールが実行され、カメラのポーズが調整されます。
最後に、特定のブロックで NeRF モデルをトレーニングするために、画像とポーズが使用されます。
データ選択、スパース 3D 再構成、シーケンス外観の埋め込み、地表面の深さの監視、オクルージョンの完了など、複数のモジュールを統合する包括的なフレームワークを提示していることを強調します。
完全なシステムは、クラウドソースのデータから高品質の 3D シーンを効果的に処理および再構築できます。
システムのパフォーマンスを検証するために、広範な定量的および定性的な実験が実施されました。
さらに、NeRF モデルを活用して 3D ストリートビューを生成し、合成ビデオでドライバーをガイドするファーストビュー ナビゲーションと呼ばれるアプリケーションを提案しました。

要約(オリジナル)

Recently, Neural Radiance Fields (NeRF) achieved impressive results in novel view synthesis. Block-NeRF showed the capability of leveraging NeRF to build large city-scale models. For large-scale modeling, a mass of image data is necessary. Collecting images from specially designed data-collection vehicles can not support large-scale applications. How to acquire massive high-quality data remains an opening problem. Noting that the automotive industry has a huge amount of image data, crowd-sourcing is a convenient way for large-scale data collection. In this paper, we present a crowd-sourced framework, which utilizes substantial data captured by production vehicles to reconstruct the scene with the NeRF model. This approach solves the key problem of large-scale reconstruction, that is where the data comes from and how to use them. Firstly, the crowd-sourced massive data is filtered to remove redundancy and keep a balanced distribution in terms of time and space. Then a structure-from-motion module is performed to refine camera poses. Finally, images, as well as poses, are used to train the NeRF model in a certain block. We highlight that we present a comprehensive framework that integrates multiple modules, including data selection, sparse 3D reconstruction, sequence appearance embedding, depth supervision of ground surface, and occlusion completion. The complete system is capable of effectively processing and reconstructing high-quality 3D scenes from crowd-sourced data. Extensive quantitative and qualitative experiments were conducted to validate the performance of our system. Moreover, we proposed an application, named first-view navigation, which leveraged the NeRF model to generate 3D street view and guide the driver with a synthesized video.

arxiv情報

著者 Tong Qin,Changze Li,Haoyang Ye,Shaowei Wan,Minzhen Li,Hongwei Liu,Ming Yang
発行日 2024-06-24 03:30:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク