要約
人間の行動やジェスチャーを認識して理解することは、ロボットが人間と対話し、サービスロボット、ヘルスケア、製造などのさまざまな領域でタスクを実行するための重要な認識要件です。
イベント カメラは、高速で移動するオブジェクトを高い時間解像度でキャプチャする機能を備えており、RGB ビデオでの標準的なアクション認識と比較して新たな機会を提供します。
ただし、イベント カメラ アクション認識に関するこれまでの研究は、主にセンサー固有のネットワーク アーキテクチャと画像エンコードに焦点を当てており、新しいセンサーには適していない可能性があり、変圧器ベースのアーキテクチャにおける最近の進歩の使用が制限されている可能性があります。
この研究では、計算効率の高いモデル、つまりビデオ トランスフォーマー ネットワーク (VTN) を採用します。このモデルは、最初にイベント フレームごとに空間エンベディングを取得し、次に時間的セルフ アテンション メカニズムを利用します。
イベント データの疎で粒度の細かい性質に対して VTN をより適切に採用するために、イベント対比損失 ($\mathcal{L}_{EC}$) とイベント固有の拡張を設計します。
提案された $\mathcal{L}_{EC}$ は、時間的に位置がずれているフレームを対比することによって、VTN の空間バックボーンにおけるきめの細かい空間キューの学習を促進します。
N-EPIC キッチン データセットの実世界の行動認識に関する手法を評価し、目に見えるキッチンでのテスト (\textbf{74.9\%} の精度) と目に見えないキッチンでのテストの両方のプロトコルで最先端の結果を達成しました。
(\textbf{42.43\% および 46.66\% 精度})。
また、私たちのアプローチは、競合する従来のアプローチと比較して計算時間も短く、これはイベント カメラ ベースのアクション認識の実世界アプリケーションに対する私たちのフレームワーク \textit{EventTransAct} の可能性を示しています。
プロジェクト ページ: \url{https://tristandb8.github.io/EventTransAct_webpage/}
要約(オリジナル)
Recognizing and comprehending human actions and gestures is a crucial perception requirement for robots to interact with humans and carry out tasks in diverse domains, including service robotics, healthcare, and manufacturing. Event cameras, with their ability to capture fast-moving objects at a high temporal resolution, offer new opportunities compared to standard action recognition in RGB videos. However, previous research on event camera action recognition has primarily focused on sensor-specific network architectures and image encoding, which may not be suitable for new sensors and limit the use of recent advancements in transformer-based architectures. In this study, we employ a computationally efficient model, namely the video transformer network (VTN), which initially acquires spatial embeddings per event-frame and then utilizes a temporal self-attention mechanism. In order to better adopt the VTN for the sparse and fine-grained nature of event data, we design Event-Contrastive Loss ($\mathcal{L}_{EC}$) and event-specific augmentations. Proposed $\mathcal{L}_{EC}$ promotes learning fine-grained spatial cues in the spatial backbone of VTN by contrasting temporally misaligned frames. We evaluate our method on real-world action recognition of N-EPIC Kitchens dataset, and achieve state-of-the-art results on both protocols – testing in seen kitchen (\textbf{74.9\%} accuracy) and testing in unseen kitchens (\textbf{42.43\% and 46.66\% Accuracy}). Our approach also takes less computation time compared to competitive prior approaches, which demonstrates the potential of our framework \textit{EventTransAct} for real-world applications of event-camera based action recognition. Project Page: \url{https://tristandb8.github.io/EventTransAct_webpage/}
arxiv情報
著者 | Tristan de Blegiers,Ishan Rajendrakumar Dave,Adeel Yousaf,Mubarak Shah |
発行日 | 2023-08-25 23:51:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google