Deep Learning for Event-based Vision: A Comprehensive Survey and Benchmarks

要約

イベント カメラは、ピクセルごとの強度変化を非同期的にキャプチャし、強度変化の時間、ピクセル位置、および極性 (符号) をエンコードするイベント ストリームを生成するバイオにヒントを得たセンサーです。
イベント カメラには、高い時間分解能、広いダイナミック レンジ、低いレイテンシなど、正規のフレーム ベースのカメラにはない無数の利点があります。イベント カメラは、困難な視覚条件で情報をキャプチャできるため、フレームの制限を克服する可能性があります。
コンピューター ビジョンおよびロボティクス コミュニティの に基づくカメラ。
ごく最近、深層学習 (DL) がこの新しい分野に持ち込まれ、その可能性を掘り起こすための活発な研究活動に影響を与えました。
しかし、技術的進歩は依然として未知のままであるため、体系的な概要を実施することが緊急かつ必要になっています。
この目的のために、イベントベースのビジョンのための DL 技術の最新の開発に焦点を当てた、初めての包括的かつ詳細な調査を実施します。
DLモデルへの入力として極めて重要な役割を果たすため、最初に品質向上方法を使用して典型的なイベント表現を精査します。
次に、既存のDLベースの方法を2つの主要なカテゴリに構造的にグループ化することにより、包括的な分類法を提供します。1)画像の再構成と復元。
2) 3D ビジョンを理解するイベントベースのシーン。
重要なことは、いくつかの重要な洞察と問題を特定するために、いくつかの代表的な研究方向 (物体認識やオプティカル フロー推定など) で既存の方法のベンチマーク実験を実施することです。
最後に、課題に関する重要な議論を行い、将来の研究を動機付けるための新しい視点を提供します。

要約(オリジナル)

Event cameras are bio-inspired sensors that capture the per-pixel intensity changes asynchronously and produce event streams encoding the time, pixel position, and polarity (sign) of the intensity changes. Event cameras possess a myriad of advantages over canonical frame-based cameras, such as high temporal resolution, high dynamic range, low latency, etc. Being capable of capturing information in challenging visual conditions, event cameras have the potential to overcome the limitations of frame-based cameras in the computer vision and robotics community. In very recent years, deep learning (DL) has been brought to this emerging field and inspired active research endeavors in mining its potential. However, the technical advances still remain unknown, thus making it urgent and necessary to conduct a systematic overview. To this end, we conduct the first yet comprehensive and in-depth survey, with a focus on the latest developments of DL techniques for event-based vision. We first scrutinize the typical event representations with quality enhancement methods as they play a pivotal role as inputs to the DL models. We then provide a comprehensive taxonomy for existing DL-based methods by structurally grouping them into two major categories: 1) image reconstruction and restoration; 2) event-based scene understanding 3D vision. Importantly, we conduct benchmark experiments for the existing methods in some representative research directions (eg, object recognition and optical flow estimation) to identify some critical insights and problems. Finally, we make important discussions regarding the challenges and provide new perspectives for motivating future research studies.

arxiv情報

著者 Xu Zheng,Yexin Liu,Yunfan Lu,Tongyan Hua,Tianbo Pan,Weiming Zhang,Dacheng Tao,Lin Wang
発行日 2023-02-17 14:19:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク