Efficient Human Vision Inspired Action Recognition using Adaptive Spatiotemporal Sampling

要約

ビデオの時空間冗長性を活用する適応サンプリングは、コンピューティングとバッテリーのリソースが限られているウェアラブルデバイスでの常時オンのアクション認識にとって重要です。
一般的に使用される固定サンプリング戦略はコンテキスト認識ではなく、ビジュアルコンテンツをアンダーサンプリングする可能性があるため、計算効率と精度の両方に悪影響を及ぼします。
中心窩視覚と人間の視覚知覚メカニズムからの事前注意処理の概念に触発されて、効率的な行動認識のための新しい適応時空間サンプリングスキームを紹介します。
私たちのシステムは、グローバルシーンコンテキストを低解像度で事前スキャンし、さらに処理するために、顕著な領域で高解像度の機能をスキップまたは要求することを決定します。
EPIC-KITCHENSおよびUCF-101データセットでシステムを検証してアクションを認識し、提案されたアプローチにより、最先端のベースラインからのアプローチと比較して、許容できる精度の低下を伴う推論を大幅に高速化できることを示します。

要約(オリジナル)

Adaptive sampling that exploits the spatiotemporal redundancy in videos is critical for always-on action recognition on wearable devices with limited computing and battery resources. The commonly used fixed sampling strategy is not context-aware and may under-sample the visual content, and thus adversely impacts both computation efficiency and accuracy. Inspired by the concepts of foveal vision and pre-attentive processing from the human visual perception mechanism, we introduce a novel adaptive spatiotemporal sampling scheme for efficient action recognition. Our system pre-scans the global scene context at low-resolution and decides to skip or request high-resolution features at salient regions for further processing. We validate the system on EPIC-KITCHENS and UCF-101 datasets for action recognition, and show that our proposed approach can greatly speed up inference with a tolerable loss of accuracy compared with those from state-of-the-art baselines.

arxiv情報

著者 Khoi-Nguyen C. Mac,Minh N. Do,Minh P. Vo
発行日 2022-07-13 15:13:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク