Path-adaptive Spatio-Temporal State Space Model for Event-based Recognition with Arbitrary Duration

要約

イベント カメラは、強度の変化を非同期でキャプチャし、高い時間分解能などの明確な利点を持つイベント ストリームを出力する、生物からインスピレーションを得たセンサーです。
オブジェクト/アクションの認識にイベント カメラを活用するために、既存の方法では主に、固定時間間隔 (または頻度) ごとに第 2 レベルの期間でイベントをサンプリングして集計します。
しかし、分単位レベルの出来事など、より長い時間の時空間関係を捉え、さまざまな時間周波数にわたって一般化するという困難に直面することがよくあります。
このギャップを埋めるために、任意の継続時間 (たとえば、0.1 秒から 4.5 秒) のイベントを認識し、さまざまな推論周波数に一般化する優れた能力を示す、PAST-SSM と呼ばれる新しいフレームワークを提案します。
私たちの重要な洞察は、状態空間モデル (SSM) を介してエンコードされたイベントの特徴から時空間関係を学習することです。状態空間モデル (SSM) の線形複雑さにより、より長いシーケンスを持つ高時間解像度のイベントをモデル化するのに最適です。
この目標を達成するために、まず、集約されたイベント フレームを適応的にスキャンして選択することにより、さまざまな期間のイベントを固定寸法の特徴にエンコードするパス適応型イベント集約およびスキャン (PEAS) モジュールを提案します。
PEAS に加えて、エンコードされた特徴のランダム性と冗長性を最小限に抑えるために、新しい多面選択ガイド (MSG) 損失を導入します。
これにより、さまざまな推論周波数にわたるモデルの一般化が微妙に強化されます。
最後に、SSM は、エンコードされた特徴から時空間特性をより適切に学習するために使用されます。
さらに、コミュニティの利益のために、ArDVS100 という名前の分単位のイベントベースの認識データセットを任意の期間で構築します。
広範な実験により、私たちの方法は、DVS Action、SeAct、および HARDVS データセットでそれぞれ +3.45%、+0.38%、および +8.31% 先行技術よりも優れていることが証明されています。

要約(オリジナル)

Event cameras are bio-inspired sensors that capture the intensity changes asynchronously and output event streams with distinct advantages, such as high temporal resolution. To exploit event cameras for object/action recognition, existing methods predominantly sample and aggregate events in a second-level duration at every fixed temporal interval (or frequency). However, they often face difficulties in capturing the spatiotemporal relationships for longer, e.g., minute-level, events and generalizing across varying temporal frequencies. To fill the gap, we present a novel framework, dubbed PAST-SSM, exhibiting superior capacity in recognizing events with arbitrary duration (e.g., 0.1s to 4.5s) and generalizing to varying inference frequencies. Our key insight is to learn the spatiotemporal relationships from the encoded event features via the state space model (SSM) — whose linear complexity makes it ideal for modeling high temporal resolution events with longer sequences. To achieve this goal, we first propose a Path-Adaptive Event Aggregation and Scan (PEAS) module to encode events of varying duration into features with fixed dimensions by adaptively scanning and selecting aggregated event frames. On top of PEAS, we introduce a novel Multi-faceted Selection Guiding (MSG) loss to minimize the randomness and redundancy of the encoded features. This subtly enhances the model generalization across different inference frequencies. Lastly, the SSM is employed to better learn the spatiotemporal properties from the encoded features. Moreover, we build a minute-level event-based recognition dataset, named ArDVS100, with arbitrary duration for the benefit of the community. Extensive experiments prove that our method outperforms prior arts by +3.45%, +0.38% and +8.31% on the DVS Action, SeAct and HARDVS datasets, respectively.

arxiv情報

著者 Jiazhou Zhou,Kanghao Chen,Lei Zhang,Lin Wang
発行日 2024-09-25 14:08:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク