要約
最近、時間的アクション位置特定 (TAL) が情報検索コミュニティで大きな関心を集めています。
ただし、既存の教師あり/弱教師手法は、広範囲にラベル付けされた時間境界とアクション カテゴリに大きく依存しており、労力と時間がかかります。
一部の教師なし手法では、TAL の「反復クラスタリングとローカライゼーション」パラダイムが利用されていますが、依然として 2 つの重要な障害があります。1) ビデオ クラスタリングの信頼性が不十分であり、2) モデル トレーニング用のビデオ擬似ラベルが信頼できないことです。
これらの制限に対処するために、クラスタリングとローカライゼーション トレーニングを同時に強化する新しい自己ペース増分学習モデルを提示します。これにより、より効果的な教師なし TAL が促進されます。
具体的には、コンテキスト特徴に堅牢な視覚情報を探索することで、クラスタリングの信頼性を向上させます。
その後、イージーからハードまでのモデルトレーニング用に 2 つの (一定速度と可変速度) 増分インスタンス学習戦略を設計します。これにより、これらのビデオ疑似ラベルの信頼性が確保され、全体的なローカリゼーション パフォーマンスがさらに向上します。
2 つの公開データセットに対する広範な実験により、いくつかの最先端の競合他社に対する当社のモデルの優位性が実証されました。
要約(オリジナル)
Recently, temporal action localization (TAL) has garnered significant interest in information retrieval community. However, existing supervised/weakly supervised methods are heavily dependent on extensive labeled temporal boundaries and action categories, which is labor-intensive and time-consuming. Although some unsupervised methods have utilized the “iteratively clustering and localization” paradigm for TAL, they still suffer from two pivotal impediments: 1) unsatisfactory video clustering confidence, and 2) unreliable video pseudolabels for model training. To address these limitations, we present a novel self-paced incremental learning model to enhance clustering and localization training simultaneously, thereby facilitating more effective unsupervised TAL. Concretely, we improve the clustering confidence through exploring the contextual feature-robust visual information. Thereafter, we design two (constant- and variable- speed) incremental instance learning strategies for easy-to-hard model training, thus ensuring the reliability of these video pseudolabels and further improving overall localization performance. Extensive experiments on two public datasets have substantiated the superiority of our model over several state-of-the-art competitors.
arxiv情報
著者 | Haoyu Tang,Han Jiang,Mingzhu Xu,Yupeng Hu,Jihua Zhu,Liqiang Nie |
発行日 | 2023-12-12 16:00:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google