Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams

要約

イベント カメラは、ビジュアル情報をまばらな非同期イベント ストリームとして表すニューロモルフィック ビジョン センサーです。
最先端のイベントベースの方法のほとんどは、イベントを密なフレームに投影し、従来の学習モデルで処理します。
ただし、これらのアプローチは、イベント データのスパース性と高い時間分解能を犠牲にするため、モデル サイズが大きくなり、計算が複雑になります。
イベントのまばらな性質に適合し、それらの暗黙的な関係を十分に調査するために、イベントストリームでの時空間表現学習のための Event Voxel Set Transformer (EVSTr) という名前の新しい注意認識フレームワークを開発します。
最初にイベント ストリームをボクセル セットに変換し、次にボクセルの特徴を階層的に集約してロバストな表現を取得します。
EVSTr のコアは、識別可能な時空間特徴を抽出するためのイベント ボクセル トランスフォーマー エンコーダーです。これは、ローカル情報集約用のマルチスケール隣接埋め込みレイヤー (MNEL) とボクセル自己注意レイヤー (VSAL) を含む、適切に設計された 2 つのコンポーネントで構成されます。
グローバル表現モデリング用。
フレームワークが長期的な時間構造を組み込むことを可能にすることで、一連のセグメント化されたボクセル セットでモーション パターンをモデル化するためのセグメント コンセンサス戦略を導入します。
提案されたフレームワークを、オブジェクトの分類とアクションの認識という 2 つのイベント ベースのタスクで評価します。
包括的な実験により、EVSTr はモデルの複雑さを抑えながら最先端のパフォーマンスを達成することが示されています。
さらに、アクション認識のための実世界のイベントベースのデータセットの欠如に対処するために、挑戦的な視覚的シナリオで記録された新しいデータセット (NeuroHAR) を提示します。

要約(オリジナル)

Event cameras are neuromorphic vision sensors representing visual information as sparse and asynchronous event streams. Most state-of-the-art event-based methods project events into dense frames and process them with conventional learning models. However, these approaches sacrifice the sparsity and high temporal resolution of event data, resulting in a large model size and high computational complexity. To fit the sparse nature of events and sufficiently explore their implicit relationship, we develop a novel attention-aware framework named Event Voxel Set Transformer (EVSTr) for spatiotemporal representation learning on event streams. It first converts the event stream into a voxel set and then hierarchically aggregates voxel features to obtain robust representations. The core of EVSTr is an event voxel transformer encoder to extract discriminative spatiotemporal features, which consists of two well-designed components, including a multi-scale neighbor embedding layer (MNEL) for local information aggregation and a voxel self-attention layer (VSAL) for global representation modeling. Enabling the framework to incorporate a long-term temporal structure, we introduce a segmental consensus strategy for modeling motion patterns over a sequence of segmented voxel sets. We evaluate the proposed framework on two event-based tasks: object classification and action recognition. Comprehensive experiments show that EVSTr achieves state-of-the-art performance while maintaining low model complexity. Additionally, we present a new dataset (NeuroHAR) recorded in challenging visual scenarios to address the lack of real-world event-based datasets for action recognition.

arxiv情報

著者 Bochen Xie,Yongjian Deng,Zhanpeng Shao,Hai Liu,Qingsong Xu,Youfu Li
発行日 2023-03-07 12:48:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク