Deep Learning for Event-based Vision: A Comprehensive Survey and Benchmarks

要約

イベント カメラは、ピクセルごとの強度変化を非同期でキャプチャし、時間、ピクセル位置、強度変化の極性 (符号) をエンコードするイベント ストリームを生成する、生物由来のセンサーです。
イベント カメラには、高時間解像度、高ダイナミック レンジ、低遅延など、標準的なフレームベースのカメラに比べて無数の利点があります。イベント カメラは、困難な視覚条件でも情報をキャプチャできるため、フレームの制限を克服する可能性があります。
コンピューター ビジョンおよびロボット工学コミュニティにおける – ベースのカメラ。
ごく最近になって、ディープ ラーニング (DL) がこの新興分野に導入され、その可能性を発掘するための活発な研究活動が活発化しました。
しかし、イベントベースのビジョンのための DL 技術には分類法がまだ不足しています。
まず、典型的なイベント表現が DL モデルへの入力として重要な役割を果たすため、品質向上手法を使用してそれらを精査します。
次に、既存の DL ベースの手法を次の 2 つの主要カテゴリに構造的にグループ化することで、その手法を包括的に調査します。1) 画像/ビデオの再構成と復元。
2) イベントベースのシーン理解と 3D ビジョン。
私たちは、いくつかの代表的な研究方向(画像再構成、ブレ除去、物体認識)における既存の手法のベンチマーク実験を実施し、いくつかの重要な洞察と問題を特定します。
最後に、課題についてディスカッションを行い、より多くの研究を促進するための新しい視点を提供します。

要約(オリジナル)

Event cameras are bio-inspired sensors that capture the per-pixel intensity changes asynchronously and produce event streams encoding the time, pixel position, and polarity (sign) of the intensity changes. Event cameras possess a myriad of advantages over canonical frame-based cameras, such as high temporal resolution, high dynamic range, low latency, etc. Being capable of capturing information in challenging visual conditions, event cameras have the potential to overcome the limitations of frame-based cameras in the computer vision and robotics community. In very recent years, deep learning (DL) has been brought to this emerging field and inspired active research endeavors in mining its potential. However, there is still a lack of taxonomies in DL techniques for event-based vision. We first scrutinize the typical event representations with quality enhancement methods as they play a pivotal role as inputs to the DL models. We then provide a comprehensive survey of existing DL-based methods by structurally grouping them into two major categories: 1) image/video reconstruction and restoration; 2) event-based scene understanding and 3D vision. We conduct benchmark experiments for the existing methods in some representative research directions, i.e., image reconstruction, deblurring, and object recognition, to identify some critical insights and problems. Finally, we have discussions regarding the challenges and provide new perspectives for inspiring more research studies.

arxiv情報

著者 Xu Zheng,Yexin Liu,Yunfan Lu,Tongyan Hua,Tianbo Pan,Weiming Zhang,Dacheng Tao,Lin Wang
発行日 2024-04-11 15:34:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク