Dense Voxel 3D Reconstruction Using a Monocular Event Camera

要約

イベントカメラは、明るさの変化を捉えることに特化した、生物システムに着想を得たセンサーである。この新しいカメラは、従来のフレームベースのカメラに比べて、高ダイナミックレンジ、高フレームレート、超低消費電力など、多くの利点を備えています。このような利点から、イベントカメラは、フレーム補間、セマンティックセグメンテーション、オドメトリ、SLAMなど、様々な分野での応用が進んでいる。しかし、VRアプリケーションのための3D再構成への応用はまだ十分に検討されていません。この分野におけるこれまでの手法は、主に深度マップ推定による3D再構成に焦点を当てていた。一般に、高密度の3D再構成を行う手法には複数のカメラが必要であり、単一のイベントカメラを利用する手法では半密度の結果しか得られない。高密度の3D再構成を可能にする他の単一カメラ手法は、前述の手法、または既存のStructure from Motion(SfM)手法やMulti-view Stereo(MVS)手法のいずれかを組み込んだパイプラインを作成することに依存している。本論文では、単一のイベントカメラのみを使用して高密度3D再構成を解決するための新しいアプローチを提案します。我々の知る限り、我々の研究はこの点で初めての試みである。我々の予備的な結果は、提案手法が、既存の手法で用いられるようなパイプラインを必要とすることなく、視覚的に区別可能な高密度3D再構成を直接生成できることを示している。さらに、イベントカメラシミュレータを用いて、39,739$ドルのオブジェクトスキャンからなる合成データセットを作成した。このデータセットは、この分野の他の関連研究を加速するのに役立つだろう。

要約(オリジナル)

Event cameras are sensors inspired by biological systems that specialize in capturing changes in brightness. These emerging cameras offer many advantages over conventional frame-based cameras, including high dynamic range, high frame rates, and extremely low power consumption. Due to these advantages, event cameras have increasingly been adapted in various fields, such as frame interpolation, semantic segmentation, odometry, and SLAM. However, their application in 3D reconstruction for VR applications is underexplored. Previous methods in this field mainly focused on 3D reconstruction through depth map estimation. Methods that produce dense 3D reconstruction generally require multiple cameras, while methods that utilize a single event camera can only produce a semi-dense result. Other single-camera methods that can produce dense 3D reconstruction rely on creating a pipeline that either incorporates the aforementioned methods or other existing Structure from Motion (SfM) or Multi-view Stereo (MVS) methods. In this paper, we propose a novel approach for solving dense 3D reconstruction using only a single event camera. To the best of our knowledge, our work is the first attempt in this regard. Our preliminary results demonstrate that the proposed method can produce visually distinguishable dense 3D reconstructions directly without requiring pipelines like those used by existing methods. Additionally, we have created a synthetic dataset with $39,739$ object scans using an event camera simulator. This dataset will help accelerate other relevant research in this field.

arxiv情報

著者 Haodong Chen,Vera Chung,Li Tan,Xiaoming Chen
発行日 2023-09-01 10:46:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク