要約
イベントカメラは、高ダイナミックレンジや低遅延といった有望な利点を持ち、厳しい照明条件や動きの速いシナリオに適している。しかしながら、生のイベントストリームから3Dシーンを再構成することは、イベントデータが疎であり、絶対的な色情報を持たないため困難である。このフレームワークは、フィードフォワード方式でイベント入力のみからシーンを3Dガウシアンとして再構成し、再トレーニングなしで未知のケースに汎化することができる。このフレームワークには、深度推定モジュール、強度再構成モジュール、ガウス回帰モジュールが含まれる。これらのサブモジュールはカスケード方式で接続され、それらを相互に促進するように設計された共同損失で協調的に訓練する。関連研究を容易にするために、様々な物質オブジェクトと、グレースケール画像、深度マップ、カメラポーズ、シルエットの較正されたラベルを持つ、新しいイベントベースの3Dデータセットを構築する。実験によれば、共同で学習したモデルは、個別に学習したモデルを大幅に上回る。我々のアプローチは、再構成品質、深度/強度予測において、全てのベースラインよりも優れており、レンダリング速度も満足のいくものである。
要約(オリジナル)
Event cameras offer promising advantages such as high dynamic range and low latency, making them well-suited for challenging lighting conditions and fast-moving scenarios. However, reconstructing 3D scenes from raw event streams is difficult because event data is sparse and does not carry absolute color information. To release its potential in 3D reconstruction, we propose the first event-based generalizable 3D reconstruction framework, called EvGGS, which reconstructs scenes as 3D Gaussians from only event input in a feedforward manner and can generalize to unseen cases without any retraining. This framework includes a depth estimation module, an intensity reconstruction module, and a Gaussian regression module. These submodules connect in a cascading manner, and we collaboratively train them with a designed joint loss to make them mutually promote. To facilitate related studies, we build a novel event-based 3D dataset with various material objects and calibrated labels of grayscale images, depth maps, camera poses, and silhouettes. Experiments show models that have jointly trained significantly outperform those trained individually. Our approach performs better than all baselines in reconstruction quality, and depth/intensity predictions with satisfactory rendering speed.
arxiv情報
著者 | Jiaxu Wang,Junhao He,Ziyi Zhang,Mingyuan Sun,Jingkai Sun,Renjing Xu |
発行日 | 2024-06-03 15:51:49+00:00 |
arxivサイト | arxiv_id(pdf) |