Deep Motion Prior for Weakly-Supervised Temporal Action Localization

要約

Weakly-Supervised Temporal Action Localization (WSTAL) は、ビデオ レベルのラベルのみを使用して、トリミングされていないビデオのアクションをローカライズすることを目的としています。
現在、ほとんどの最先端の WSTAL メソッドは、Multi-Instance Learning (MIL) パイプラインに従います。つまり、最初にスニペット レベルの予測を生成し、次にビデオ レベルの予測に集約します。
ただし、既存の方法では、1) モーション情報の不適切な使用と 2) 一般的なクロスエントロピー トレーニング損失の非互換性という 2 つの重要な欠点が見落とされていると主張します。
このホワイト ペーパーでは、オプティカル フロー機能の背後にあるモーション キューが補完的な情報を提供することを分析します。
これに触発されて、モーションネスと呼ばれるコンテキスト依存の事前モーションを構築することを提案します。
具体的には、ローカル モーション キャリア (オプティカル フローなど) に基づいてモーションをモデル化するために、モーション グラフが導入されます。
さらに、より有益なビデオ スニペットを強調するために、モーション スコアに基づいて調整されたネットワーク トレーニングを調整するモーション ガイド付き損失が提案されています。
広範なアブレーション研究により、モーションネスが関心のある行動を効果的にモデル化し、モーションガイドによる損失がより正確な結果につながることが確認されています。
さらに、モーションガイド損失はプラグアンドプレイの損失関数であり、既存の WSTAL メソッドに適用できます。
標準 MIL パイプラインに基づく一般性を失うことなく、この方法は、THUMOS’14、ActivityNet v1.2 および v1.3 を含む 3 つの困難なベンチマークで新しい最先端のパフォーマンスを達成します。

要約(オリジナル)

Weakly-Supervised Temporal Action Localization (WSTAL) aims to localize actions in untrimmed videos with only video-level labels. Currently, most state-of-the-art WSTAL methods follow a Multi-Instance Learning (MIL) pipeline: producing snippet-level predictions first and then aggregating to the video-level prediction. However, we argue that existing methods have overlooked two important drawbacks: 1) inadequate use of motion information and 2) the incompatibility of prevailing cross-entropy training loss. In this paper, we analyze that the motion cues behind the optical flow features are complementary informative. Inspired by this, we propose to build a context-dependent motion prior, termed as motionness. Specifically, a motion graph is introduced to model motionness based on the local motion carrier (e.g., optical flow). In addition, to highlight more informative video snippets, a motion-guided loss is proposed to modulate the network training conditioned on motionness scores. Extensive ablation studies confirm that motionness efficaciously models action-of-interest, and the motion-guided loss leads to more accurate results. Besides, our motion-guided loss is a plug-and-play loss function and is applicable with existing WSTAL methods. Without loss of generality, based on the standard MIL pipeline, our method achieves new state-of-the-art performance on three challenging benchmarks, including THUMOS’14, ActivityNet v1.2 and v1.3.

arxiv情報

著者 Meng Cao,Can Zhang,Long Chen,Mike Zheng Shou,Yuexian Zou
発行日 2022-07-29 12:02:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク