Towards Adaptive Pseudo-label Learning for Semi-Supervised Temporal Action Localization

要約

ノイズの多い擬似ラベルを軽減することは、半教師あり時間的アクション位置特定 (SS-TAL) における重要な課題のままです。
既存の方法では、厳密な条件に基づいて擬似ラベルをフィルタリングすることがよくありますが、通常は分類と位置特定の品質を個別に評価するため、擬似ラベルのランキングと選択が最適ではなくなります。
特に、選択されたポジティブ内に不正確な擬似ラベルが存在する可能性があり、また、ネガティブに誤って割り当てられた信頼できる対応物が存在する可能性があります。
これらの問題に取り組むために、より適切な擬似ラベルの選択を容易にする新しい適応擬似ラベル学習 (APL) フレームワークを提案します。
具体的には、ランキングの品質を向上させるために、分類の信頼性と位置特定の信頼性を共同で学習し、その後共同スコアに基づいて擬似ラベルを動的に選択する適応ラベル品質評価 (ALQA) が提案されています。
さらに、曖昧な肯定的なものを排除し、インスタンス間の本質的な一貫性に基づいて潜在的な肯定的なものを同時にマイニングするためのインスタンスレベルの一貫性識別子 (ICD) を提案します。これにより、より正確な選択が可能になります。
さらに、アクション内およびアクションと背景間の識別を強化するための一般的な教師なしアクション認識対比事前トレーニング (ACP) を導入します。これは SS-TAL に利益をもたらします。
THUMOS14 および ActivityNet v1.3 での広範な実験により、私たちの方法がさまざまな半教師あり設定の下で最先端のパフォーマンスを達成できることが実証されました。

要約(オリジナル)

Alleviating noisy pseudo labels remains a key challenge in Semi-Supervised Temporal Action Localization (SS-TAL). Existing methods often filter pseudo labels based on strict conditions, but they typically assess classification and localization quality separately, leading to suboptimal pseudo-label ranking and selection. In particular, there might be inaccurate pseudo labels within selected positives, alongside reliable counterparts erroneously assigned to negatives. To tackle these problems, we propose a novel Adaptive Pseudo-label Learning (APL) framework to facilitate better pseudo-label selection. Specifically, to improve the ranking quality, Adaptive Label Quality Assessment (ALQA) is proposed to jointly learn classification confidence and localization reliability, followed by dynamically selecting pseudo labels based on the joint score. Additionally, we propose an Instance-level Consistency Discriminator (ICD) for eliminating ambiguous positives and mining potential positives simultaneously based on inter-instance intrinsic consistency, thereby leading to a more precise selection. We further introduce a general unsupervised Action-aware Contrastive Pre-training (ACP) to enhance the discrimination both within actions and between actions and backgrounds, which benefits SS-TAL. Extensive experiments on THUMOS14 and ActivityNet v1.3 demonstrate that our method achieves state-of-the-art performance under various semi-supervised settings.

arxiv情報

著者 Feixiang Zhou,Bryan Williams,Hossein Rahmani
発行日 2024-07-10 14:00:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク