要約
動画像における時間的な行動定位は、コンピュータビジョンの分野において重要な課題となっている。境界感応法は広く採用されているが、その限界には、中間およびグローバル情報の不完全な使用や、非効率な提案特徴生成器が含まれている。これらの課題に対処するため、我々は、境界線分類とアクション完全性回帰によって境界線敏感法を強化する新しいフレームワーク、Sparse Multilevel Boundary Generator (SMBG) を提案する。SMBGは、異なる長さの境界情報を収集することで、より高速な処理を可能にするマルチレベルの境界モジュールを特徴とする。さらに、アクションの内側と外側の情報を区別するスパース抽出信頼度ヘッドを導入し、提案特徴生成器をさらに最適化する。複数のブランチ間のシナジーを改善し、正と負のサンプルのバランスをとるために、グローバルなガイダンスロスを提案する。本手法をActivityNet-1.3とTHUMOS14という2つの有名なベンチマークで評価したところ、推論速度が向上し、最先端の性能を達成することが示された(2.47xBSN++, 2.12xDBG).これらの結果は、SMBGが時間的行動提案を生成するための、より効率的でシンプルなソリューションを提供することを示す。我々の提案するフレームワークは、コンピュータビジョンの分野を発展させ、ビデオ解析における時間的行動定位の精度と速度を向上させる可能性があります。コードとモデルは㈳URL{https://github.com/zhouyang-001/SMBG-for-temporal-action-proposal}で公開されています。
要約(オリジナル)
Temporal action localization in videos presents significant challenges in the field of computer vision. While the boundary-sensitive method has been widely adopted, its limitations include incomplete use of intermediate and global information, as well as an inefficient proposal feature generator. To address these challenges, we propose a novel framework, Sparse Multilevel Boundary Generator (SMBG), which enhances the boundary-sensitive method with boundary classification and action completeness regression. SMBG features a multi-level boundary module that enables faster processing by gathering boundary information at different lengths. Additionally, we introduce a sparse extraction confidence head that distinguishes information inside and outside the action, further optimizing the proposal feature generator. To improve the synergy between multiple branches and balance positive and negative samples, we propose a global guidance loss. Our method is evaluated on two popular benchmarks, ActivityNet-1.3 and THUMOS14, and is shown to achieve state-of-the-art performance, with a better inference speed (2.47xBSN++, 2.12xDBG). These results demonstrate that SMBG provides a more efficient and simple solution for generating temporal action proposals. Our proposed framework has the potential to advance the field of computer vision and enhance the accuracy and speed of temporal action localization in video analysis.The code and models are made available at \url{https://github.com/zhouyang-001/SMBG-for-temporal-action-proposal}.
arxiv情報
著者 | Qing Song,Yang Zhou,Mengjie Hu,Chun Liu |
発行日 | 2023-03-06 14:26:56+00:00 |
arxivサイト | arxiv_id(pdf) |