要約
ビデオアクション検出(時空間アクションローカライゼーション)は、通常、今日のビデオの人間中心のインテリジェントな分析の出発点である。これは、ロボット工学、セキュリティ、ヘルスケアなどにわたる多くのアプリケーションに高い実用的影響を与える。Faster R-CNNの2段階パラダイムは、物体検出におけるビデオ行動検出の標準的なパラダイム、すなわち、まず人物提案を生成し、次にその行動を分類することを鼓舞するものである。しかし、既存のソリューションのどれもが、「誰が、いつ、どこで、何を」のレベルまできめ細かい行動検出を提供することができませんでした。本論文では、予め定義されたキーアクションを空間的に(関連するターゲットIDと位置を予測することにより)、また時間的に(正確なフレームインデックスで時間を予測することにより)正確かつ効率的に定位するトラッキングベースのソリューションを紹介します。このソリューションは、2021 Low-Power Computer Vision Challenge (LPCVC)のUAV-Video Trackで1位を獲得しました。
要約(オリジナル)
Video action detection (spatio-temporal action localization) is usually the starting point for human-centric intelligent analysis of videos nowadays. It has high practical impacts for many applications across robotics, security, healthcare, etc. The two-stage paradigm of Faster R-CNN inspires a standard paradigm of video action detection in object detection, i.e., firstly generating person proposals and then classifying their actions. However, none of the existing solutions could provide fine-grained action detection to the ‘who-when-where-what’ level. This paper presents a tracking-based solution to accurately and efficiently localize predefined key actions spatially (by predicting the associated target IDs and locations) and temporally (by predicting the time in exact frame indices). This solution won first place in the UAV-Video Track of 2021 Low-Power Computer Vision Challenge (LPCVC).
arxiv情報
著者 | Xin Hu,Zhenyu Wu,Hao-Yu Miao,Siqi Fan,Taiyu Long,Zhenyu Hu,Pengcheng Pi,Yi Wu,Zhou Ren,Zhangyang Wang,Gang Hua |
発行日 | 2022-06-05 22:47:02+00:00 |
arxivサイト | arxiv_id(pdf) |