JCDNet: Joint of Common and Definite phases Network for Weakly Supervised Temporal Action Localization




– 弱い教師付きの時空間アクション・ローカル化は、ビデオ全体の監視のみでアクションのインスタンスをローカル化することを目的としています。
– 我々は、様々なアクションは共通するフェーズを記録していることを発見しました。例えば、HighJumpやLongJumpでのランアップを含みます。これらの異なるアクションは、共通のアクションと定義され、休憩部分は確定的フェーズであるとされます。例えば、HighJumpでバーを越えます。
– 確定的フェーズは、既存の研究でより簡単にローカル化されます。これらのタスクの多くは、共通のフェーズが背景と混同され、共同アクションのローカライズ完全性に影響を与える複数インスタンス学習パラダイムとして公式化されます。
– このチャレンジに対処するために、私たちは、共通化と確定化の両方のフェーズを改良したJCDNetを提案しています。特に、粗い確定フェーズの特徴の指導により、共通フェーズの貢献を強化するクラス感知discriminativeモジュールを設計しました。
– さらに、私たちは、時空間依存関係をモデル化することにより、共通フェーズを背景から区別することにより、頑健なアクション-スコアスコアを学習するための一時的な注意モジュールを導入します。
– THUMOS14、ActivityNetv1.2、および共同アクションのサブセットの3つのデータセットでの詳細な実験により、JCDNetは最新の方法と競争力のあるパフォーマンスを発揮することが示されました。キーワード:弱い教師付き学習、時空アクションのローカリゼーション、共通アクション。


Weakly-supervised temporal action localization aims to localize action instances in untrimmed videos with only video-level supervision. We witness that different actions record common phases, e.g., the run-up in the HighJump and LongJump. These different actions are defined as conjoint actions, whose rest parts are definite phases, e.g., leaping over the bar in a HighJump. Compared with the common phases, the definite phases are more easily localized in existing researches. Most of them formulate this task as a Multiple Instance Learning paradigm, in which the common phases are tended to be confused with the background, and affect the localization completeness of the conjoint actions. To tackle this challenge, we propose a Joint of Common and Definite phases Network (JCDNet) by improving feature discriminability of the conjoint actions. Specifically, we design a Class-Aware Discriminative module to enhance the contribution of the common phases in classification by the guidance of the coarse definite-phase features. Besides, we introduce a temporal attention module to learn robust action-ness scores via modeling temporal dependencies, distinguishing the common phases from the background. Extensive experiments on three datasets (THUMOS14, ActivityNetv1.2, and a conjoint-action subset) demonstrate that JCDNet achieves competitive performance against the state-of-the-art methods. Keywords: weakly-supervised learning, temporal action localization, conjoint action


著者 Yifu Liu,Xiaoxia Li,Zhiling Luo,Wei Zhou
発行日 2023-03-30 11:09:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク