Weakly-Supervised Temporal Action Localization by Progressive Complementary Learning

要約

Weakly Supervised Temporal Action Localization (WSTAL) は、ビデオ レベルのカテゴリ ラベルのみを使用して、トリミングされていない長いビデオのアクション インスタンスをローカライズして分類することを目的としています。
アクションの境界を示すためのスニペット レベルの監視が欠如しているため、以前の方法では通常、ラベルのないスニペットに疑似ラベルを割り当てていました。
ただし、異なるカテゴリの一部のアクション インスタンスは視覚的に類似しているため、スニペットの (通常は) 1 つのアクション カテゴリに正確にラベルを付けるのは自明ではなく、誤った擬似ラベルはローカリゼーションのパフォーマンスを損なう可能性があります。
この問題に対処するために、スニペット レベルの監視を徐々に強化するプログレッシブ補完学習 (ProCL) と呼ばれる、カテゴリ除外の観点から新しい方法を提案します。
私たちの方法は、ビデオレベルのラベルが、すべてのスニペットが確実に属していないカテゴリを正確に示しているという事実に触発されており、これは以前の研究では無視されていました.
したがって、まず、補完的な学習損失によって、これらの確実に存在しないカテゴリを除外します。
次に、あいまいさの少ないスニペットのより多くのカテゴリを除外するために、背景を認識した疑似補完ラベル付けを導入します。
さらに、残りのあいまいなスニペットについては、フォアグラウンド アクションとバックグラウンド アクションを区別することであいまいさを軽減しようとします。
広範な実験結果は、THUMOS14 と ActivityNet1.3 という 2 つの一般的なベンチマークで、私たちの方法が新しい最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Weakly Supervised Temporal Action Localization (WSTAL) aims to localize and classify action instances in long untrimmed videos with only video-level category labels. Due to the lack of snippet-level supervision for indicating action boundaries, previous methods typically assign pseudo labels for unlabeled snippets. However, since some action instances of different categories are visually similar, it is non-trivial to exactly label the (usually) one action category for a snippet, and incorrect pseudo labels would impair the localization performance. To address this problem, we propose a novel method from a category exclusion perspective, named Progressive Complementary Learning (ProCL), which gradually enhances the snippet-level supervision. Our method is inspired by the fact that video-level labels precisely indicate the categories that all snippets surely do not belong to, which is ignored by previous works. Accordingly, we first exclude these surely non-existent categories by a complementary learning loss. And then, we introduce the background-aware pseudo complementary labeling in order to exclude more categories for snippets of less ambiguity. Furthermore, for the remaining ambiguous snippets, we attempt to reduce the ambiguity by distinguishing foreground actions from the background. Extensive experimental results show that our method achieves new state-of-the-art performance on two popular benchmarks, namely THUMOS14 and ActivityNet1.3.

arxiv情報

著者 Jia-Run Du,Jia-Chang Feng,Kun-Yu Lin,Fa-Ting Hong,Xiao-Ming Wu,Zhongang Qi,Ying Shan,Wei-Shi Zheng
発行日 2022-11-14 15:21:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク