HARDVS: Revisiting Human Activity Recognition with Dynamic Vision Sensors

要約

人間活動認識 (HAR) アルゴリズムの主流は、RGB カメラに基づいて開発されており、照明、高速モーション、プライバシー保護、および大量のエネルギー消費に悩まされています。
一方、生物学に着想を得たイベント カメラは、高いダイナミック レンジ、密度の高い時間解像度と疎な空間解像度、低遅延、低消費電力などの独自の機能により、大きな関心を集めました。
HAR 用の大規模データセット。
その大きな実用的価値を考慮して、このホワイト ペーパーでは、このギャップを埋めるために、300 のカテゴリと 10 万を超えるイベント シーケンスを含む HARDVS と呼ばれる大規模なベンチマーク データセットを提案します。
複数の一般的な HAR アルゴリズムのパフォーマンスを評価して報告します。これにより、将来の作業を比較するための広範なベースラインが提供されます。
さらに重要なことは、イベントストリームベースの人間の活動認識のために、ESTFと呼ばれる新しい時空間特徴学習および融合フレームワークを提案することです。
まず、StemNet を使用してイベント ストリームを空間的および時間的な埋め込みに投影し、次に Transformer ネットワークを使用してデュアル ビュー表現をエンコードおよび融合します。
最後に、2 つの特徴が連結され、活動予測のために分類ヘッドに送られます。
複数のデータセットに対する広範な実験により、モデルの有効性が完全に検証されました。
データセットとソース コードの両方が \url{https://github.com/Event-AHU/HARDVS} でリリースされます。

要約(オリジナル)

The main streams of human activity recognition (HAR) algorithms are developed based on RGB cameras which are suffered from illumination, fast motion, privacy-preserving, and large energy consumption. Meanwhile, the biologically inspired event cameras attracted great interest due to their unique features, such as high dynamic range, dense temporal but sparse spatial resolution, low latency, low power, etc. As it is a newly arising sensor, even there is no realistic large-scale dataset for HAR. Considering its great practical value, in this paper, we propose a large-scale benchmark dataset to bridge this gap, termed HARDVS, which contains 300 categories and more than 100K event sequences. We evaluate and report the performance of multiple popular HAR algorithms, which provide extensive baselines for future works to compare. More importantly, we propose a novel spatial-temporal feature learning and fusion framework, termed ESTF, for event stream based human activity recognition. It first projects the event streams into spatial and temporal embeddings using StemNet, then, encodes and fuses the dual-view representations using Transformer networks. Finally, the dual features are concatenated and fed into a classification head for activity prediction. Extensive experiments on multiple datasets fully validated the effectiveness of our model. Both the dataset and source code will be released on \url{https://github.com/Event-AHU/HARDVS}.

arxiv情報

著者 Xiao Wang,Zongzhen Wu,Bo Jiang,Zhimin Bao,Lin Zhu,Guoqi Li,Yaowei Wang,Yonghong Tian
発行日 2022-11-17 16:48:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.NE パーマリンク