Rethinking Efficient and Effective Point-based Networks for Event Camera Classification and Regression: EventMamba

要約

イベントカメラは、生物学的システムからインスピレーションを引き出し、最小限のパワーを消費しながら、低レイテンシと高いダイナミックレンジを誇っています。
イベントクラウドを処理するための最新のアプローチは、多くの場合、それをフレームベースの表現に変換することを伴います。これは、イベントのスパース性を無視し、きめ細かい時間情報を失い、計算負担を増加させます。
対照的に、Point Cloudは3次元データを処理するための一般的な表現であり、ローカルおよびグローバルな空間機能を活用するための代替方法として機能します。
それにもかかわらず、以前のポイントベースの方法は、時空間イベントストリームを扱う際のフレームベースの方法と比較して、不十分なパフォーマンスを示しています。
ギャップを埋めるために、イベントクラウドとポイントクラウドの区別を再考し、重要な時間情報を強調することにより、ポイントクラウド表現に基づいた効率的かつ効果的なフレームワークであるEventmambaを提案します。
その後、イベントクラウドは、段階的なモジュールを備えた階層構造に供給され、暗黙的および明示的な時間的特徴の両方を処理します。
具体的には、グローバル抽出器を再設計して、時間的凝集と状態空間モデル(SSM)ベースのMAMBAを使用した一連のイベント間の明示的な時間抽出を強化します。
私たちのモデルは、実験で最小限の計算リソースを消費し、6つの異なる尺度のアクション認識データセットでSOTAポイントベースのパフォーマンスを示しています。
カメラは再局在化(CPR)と視線追跡回帰タスクの両方で、すべてのフレームベースのメソッドを上回りました。
私たちのコードは、https://github.com/rhwxmx/eventmambaで入手できます。

要約(オリジナル)

Event cameras draw inspiration from biological systems, boasting low latency and high dynamic range while consuming minimal power. The most current approach to processing Event Cloud often involves converting it into frame-based representations, which neglects the sparsity of events, loses fine-grained temporal information, and increases the computational burden. In contrast, Point Cloud is a popular representation for processing 3-dimensional data and serves as an alternative method to exploit local and global spatial features. Nevertheless, previous point-based methods show an unsatisfactory performance compared to the frame-based method in dealing with spatio-temporal event streams. In order to bridge the gap, we propose EventMamba, an efficient and effective framework based on Point Cloud representation by rethinking the distinction between Event Cloud and Point Cloud, emphasizing vital temporal information. The Event Cloud is subsequently fed into a hierarchical structure with staged modules to process both implicit and explicit temporal features. Specifically, we redesign the global extractor to enhance explicit temporal extraction among a long sequence of events with temporal aggregation and State Space Model (SSM) based Mamba. Our model consumes minimal computational resources in the experiments and still exhibits SOTA point-based performance on six different scales of action recognition datasets. It even outperformed all frame-based methods on both Camera Pose Relocalization (CPR) and eye-tracking regression tasks. Our code is available at: https://github.com/rhwxmx/EventMamba.

arxiv情報

著者 Hongwei Ren,Yue Zhou,Jiadong Zhu,Haotian Fu,Yulong Huang,Xiaopeng Lin,Yuetong Fang,Fei Ma,Hao Yu,Bojun Cheng
発行日 2025-03-28 14:25:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク