要約
コンピュータービジョンとディープラーニングの進歩により、ビデオベースの人間動作認識 (HAR) が実用化されました。
ただし、計算パイプラインが複雑なため、ライブ ビデオ ストリームで HAR を実行すると、組み込みプラットフォームで過度の遅延が発生します。
この研究では、HAR のリアルタイム パフォーマンスの課題に 4 つの貢献を行って取り組んでいます。1) 標準的なオプティカル フロー (OF) 抽出技術が最先端の HAR パイプラインにおける遅延のボトルネックであることを特定する実験的研究、2) 調査
OF 抽出に対する標準アプローチと深層学習アプローチの間のレイテンシと精度のトレードオフについて、新しい効率的なモーション特徴抽出器の必要性を強調しています。3) 新しいシングルショット ニューラル ネットワークである Integrated Motion Features Extractor (IMFE) の設計
レイテンシを大幅に改善した動き特徴抽出のためのアーキテクチャ、4) 組み込みプラットフォーム向けに調整されたリアルタイム HAR システムである RT-HARE の開発。
Nvidia Jetson Xavier NX プラットフォームでの実験結果では、RT-HARE が高レベルの認識精度を実現しながら、毎秒 30 フレームのビデオ フレーム レートでリアルタイム HAR を実現することが実証されました。
要約(オリジナル)
With advancements in computer vision and deep learning, video-based human action recognition (HAR) has become practical. However, due to the complexity of the computation pipeline, running HAR on live video streams incurs excessive delays on embedded platforms. This work tackles the real-time performance challenges of HAR with four contributions: 1) an experimental study identifying a standard Optical Flow (OF) extraction technique as the latency bottleneck in a state-of-the-art HAR pipeline, 2) an exploration of the latency-accuracy tradeoff between the standard and deep learning approaches to OF extraction, which highlights the need for a novel, efficient motion feature extractor, 3) the design of Integrated Motion Feature Extractor (IMFE), a novel single-shot neural network architecture for motion feature extraction with drastic improvement in latency, 4) the development of RT-HARE, a real-time HAR system tailored for embedded platforms. Experimental results on an Nvidia Jetson Xavier NX platform demonstrated that RT-HARE realizes real-time HAR at a video frame rate of 30 frames per second while delivering high levels of recognition accuracy.
arxiv情報
著者 | Ruiqi Wang,Zichen Wang,Peiqi Gao,Mingzhen Li,Jaehwan Jeong,Yihang Xu,Yejin Lee,Carolyn M. Baum,Lisa Tabor Connor,Chenyang Lu |
発行日 | 2024-09-11 14:21:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google