GateHUB: Gated History Unit with Background Suppression for Online Action Detection

要約

オンラインアクション検出は、ストリーミングビデオの中でアクションが発生するとすぐに予測するタスクである。大きな課題は、モデルが未来にアクセスできず、予測を行うために履歴、すなわちこれまでに観測されたフレームのみに頼らざるを得ないことである。そのため、現在のフレームの予測に有益な履歴の部分を強調することが重要である。我々は、GateHUB(Gated History Unit with Background Suppression)を提案する。GateHUBは、新しい位置誘導型ゲート交差注意メカニズムからなり、現在のフレーム予測に有益な履歴の部分を強調したり、抑制したりすることができる。GateHUBはさらに、Future-augmented History (FaH)を提案し、後から観測されたフレームが利用可能な場合、それを使って履歴の特徴をより有益なものにすることができます。GateHUBは、一つの統一されたフレームワークの中で、長距離時間モデリングという変換器の能力と、関連情報を選択的に符号化するというリカレントモデルの能力を統合している。また、GateHUBは、アクションフレームに酷似した背景フレームの誤検出をさらに軽減するために、背景抑制目的を導入している。THUMOS、TVSeries、HDDの3つのベンチマークデータセットで広範な検証を行った結果、GateHUBは既存の全ての手法を大幅に上回り、また既存のベストワークよりも効率的であることが実証された。さらに、フローフリー版のGateHUBは、予測のためにRGBとオプティカルフローの両方の情報を必要とするすべての既存手法と比較して、2.8倍の高いフレームレートで高いまたは近い精度を達成することができます。

要約(オリジナル)

Online action detection is the task of predicting the action as soon as it happens in a streaming video. A major challenge is that the model does not have access to the future and has to solely rely on the history, i.e., the frames observed so far, to make predictions. It is therefore important to accentuate parts of the history that are more informative to the prediction of the current frame. We present GateHUB, Gated History Unit with Background Suppression, that comprises a novel position-guided gated cross-attention mechanism to enhance or suppress parts of the history as per how informative they are for current frame prediction. GateHUB further proposes Future-augmented History (FaH) to make history features more informative by using subsequently observed frames when available. In a single unified framework, GateHUB integrates the transformer’s ability of long-range temporal modeling and the recurrent model’s capacity to selectively encode relevant information. GateHUB also introduces a background suppression objective to further mitigate false positive background frames that closely resemble the action frames. Extensive validation on three benchmark datasets, THUMOS, TVSeries, and HDD, demonstrates that GateHUB significantly outperforms all existing methods and is also more efficient than the existing best work. Furthermore, a flow-free version of GateHUB is able to achieve higher or close accuracy at 2.8x higher frame rate compared to all existing methods that require both RGB and optical flow information for prediction.

arxiv情報

著者 Junwen Chen,Gaurav Mittal,Ye Yu,Yu Kong,Mei Chen
発行日 2022-06-09 17:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク