Weakly-Supervised Temporal Action Localization with Bidirectional Semantic Consistency Constraint

要約

タイトル: 双方向意味一貫性制約による弱教師付き時系列アクションの位置特定
要約:
– 弱教師付き時系列アクションの位置特定は、トレーニングデータセットでのビデオレベルのカテゴリーラベルのみを使用して、ビデオのアクションの分類と位置特定を行うことを目的とする。
– 教師信号としての境界情報の不足により、既存のアプローチは、時系列クラスアクティベーションマップ(T-CAM)の生成としてWTALを定式化している。しかし、分類損失のみでは、モデルはサブ最適化され、アクション関連シーンは異なるクラスラベルを区別するのに十分であるため、同じシーン内の他のアクション(つまり、肯定的なアクションと同じシーン)を共同アクションとして扱うことになります。
– Bi-SCCは、正のアクションを共同アクションから識別するためのシンプルで効果的な方法であり、2つのステップにより構成される。1つ目は、正のアクションとその共同アクションの相関を破るための時間的コンテキスト拡張を採用し、2番目は、最初のビデオと拡張されたビデオの予測を一致させる意味一貫性制約(SCC)を使用して、共同アクションを抑制することです。 ただし、拡張されたビデオはオリジナルの時間的コンテキストを破壊するため、SCCを適用するだけでは、肯定的なアクションの完全性が損なわれます。そのため、オリジナルと拡張されたビデオを相互監督します。
– 提案されたBi-SCCは、現在のWTALアプローチに適用でき、そのパフォーマンスを向上させることができます。実験結果は、THUMOS14およびActivityNetで、提案手法が最先端の手法を上回ることを示しています。

要約(オリジナル)

Weakly Supervised Temporal Action Localization (WTAL) aims to classify and localize temporal boundaries of actions for the video, given only video-level category labels in the training datasets. Due to the lack of boundary information during training, existing approaches formulate WTAL as a classificationproblem, i.e., generating the temporal class activation map (T-CAM) for localization. However, with only classification loss, the model would be sub-optimized, i.e., the action-related scenes are enough to distinguish different class labels. Regarding other actions in the action-related scene ( i.e., the scene same as positive actions) as co-scene actions, this sub-optimized model would misclassify the co-scene actions as positive actions. To address this misclassification, we propose a simple yet efficient method, named bidirectional semantic consistency constraint (Bi-SCC), to discriminate the positive actions from co-scene actions. The proposed Bi-SCC firstly adopts a temporal context augmentation to generate an augmented video that breaks the correlation between positive actions and their co-scene actions in the inter-video; Then, a semantic consistency constraint (SCC) is used to enforce the predictions of the original video and augmented video to be consistent, hence suppressing the co-scene actions. However, we find that this augmented video would destroy the original temporal context. Simply applying the consistency constraint would affect the completeness of localized positive actions. Hence, we boost the SCC in a bidirectional way to suppress co-scene actions while ensuring the integrity of positive actions, by cross-supervising the original and augmented videos. Finally, our proposed Bi-SCC can be applied to current WTAL approaches, and improve their performance. Experimental results show that our approach outperforms the state-of-the-art methods on THUMOS14 and ActivityNet.

arxiv情報

著者 Guozhang Li,De Cheng,Xinpeng Ding,Nannan Wang,Jie Li,Xinbo Gao
発行日 2023-04-25 07:20:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク