Weakly-supervised Action Localization via Hierarchical Mining

要約

弱教師ありアクションローカリゼーションは、ビデオレベルのカテゴリラベルのみを使用して、特定のビデオのアクションインスタンスを一時的にローカライズおよび分類することを目的としています。
したがって、既存の弱く監視されたアクションのローカリゼーション方法の重要な問題は、正確な予測のための弱い注釈からの制限された監視です。
この作業では、ビデオレベルおよびスニペットレベルの方法で階層型マイニング戦略を提案します。つまり、階層型監視と階層型整合性マイニングを使用して、指定されたアノテーションと予測ごとの整合性を最大限に活用します。
この目的のために、階層的マイニングネットワーク(HiM-Net)が提案されています。
具体的には、2つのグレインに分類するための階層的な監視をマイニングします。1つは、複数のインスタンスの学習によってキャプチャされたグラウンドトゥルースカテゴリのビデオレベルの存在です。
もう1つは、補完的なラベルの観点から見た、各ネガティブラベルのカテゴリのスニペットレベルの存在ではありません。これは、提案された補完的なラベル学習によって最適化されます。
階層の一貫性に関しては、HiM-Netは、識別表現の学習と一貫した前景と背景の分離のために、ビデオレベルの協調動作機能の類似性とスニペットレベルの前景と背景の反対を調査します。
具体的には、予測分散は、提案された前景と背景の共学習に対して高いコンセンサスを持つペアを選択するための不確実性と見なされます。
包括的な実験結果は、HiM-Netが、監視と一貫性を階層的にマイニングすることにより、THUMOS14およびActivityNet1.3データセットの既存の方法よりも大きなマージンで優れていることを示しています。
コードはGitHubで入手できます。

要約(オリジナル)

Weakly-supervised action localization aims to localize and classify action instances in the given videos temporally with only video-level categorical labels. Thus, the crucial issue of existing weakly-supervised action localization methods is the limited supervision from the weak annotations for precise predictions. In this work, we propose a hierarchical mining strategy under video-level and snippet-level manners, i.e., hierarchical supervision and hierarchical consistency mining, to maximize the usage of the given annotations and prediction-wise consistency. To this end, a Hierarchical Mining Network (HiM-Net) is proposed. Concretely, it mines hierarchical supervision for classification in two grains: one is the video-level existence for ground truth categories captured by multiple instance learning; the other is the snippet-level inexistence for each negative-labeled category from the perspective of complementary labels, which is optimized by our proposed complementary label learning. As for hierarchical consistency, HiM-Net explores video-level co-action feature similarity and snippet-level foreground-background opposition, for discriminative representation learning and consistent foreground-background separation. Specifically, prediction variance is viewed as uncertainty to select the pairs with high consensus for proposed foreground-background collaborative learning. Comprehensive experimental results show that HiM-Net outperforms existing methods on THUMOS14 and ActivityNet1.3 datasets with large margins by hierarchically mining the supervision and consistency. Code will be available on GitHub.

arxiv情報

著者 Jia-Chang Feng,Fa-Ting Hong,Jia-Run Du,Zhongang Qi,Ying Shan,Xiaohu Qie,Wei-Shi Zheng,Jianping Wu
発行日 2022-06-22 12:19:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク