ADM-Loc: Actionness Distribution Modeling for Point-supervised Temporal Action Localization


この論文では、トレーニング セット内でアクション インスタンスごとに 1 つのフレームのみに注釈が付けられる、ポイント教師付き時間アクション検出の課題に取り組みます。
セルフトレーニングは、基本モデルから疑似ラベル (アクション提案) を生成することで、トレーニング プロセスに補足的な監視を提供することを目的としています。
この論文では、ADM-Loc と呼ばれる新しいフレームワークを提案します。これは、ポイント教師ありアクションのローカリゼーションのための Actionness Distribution Modeling の略です。
ADM-Loc は、ガウス分布と一様分布の両方を含む複合分布をアクション分類信号に適合させることにより、アクション提案を生成します。
このフィッティング プロセスは、ビデオ内に存在する各アクション クラスに合わせて調整され、アクション インスタンスごとに個別に適用され、その分布の独自性が保証されます。
ADM-Loc は、生成されたアクション提案とグラウンドトゥルース アクション インスタンスの間の調整を大幅に強化し、自己トレーニング用の高品質な疑似ラベルを提供します。
さらに、アクション境界スニペットをモデル化するために、提案された損失関数で監視されたガウス カーネルを採用することにより、トレーニング中にアクション分類スコアの一貫性が強制されます。
ADM-Loc は、THUMOS14 および ActivityNet-v1.2 データセット上で最先端のポイント教師ありメソッドよりも優れたパフォーマンスを発揮します。


This paper addresses the challenge of point-supervised temporal action detection, in which only one frame per action instance is annotated in the training set. Self-training aims to provide supplementary supervision for the training process by generating pseudo-labels (action proposals) from a base model. However, most current methods generate action proposals by applying manually designed thresholds to action classification probabilities and treating adjacent snippets as independent entities. As a result, these methods struggle to generate complete action proposals, exhibit sensitivity to fluctuations in action classification scores, and generate redundant and overlapping action proposals. This paper proposes a novel framework termed ADM-Loc, which stands for Actionness Distribution Modeling for point-supervised action Localization. ADM-Loc generates action proposals by fitting a composite distribution, comprising both Gaussian and uniform distributions, to the action classification signals. This fitting process is tailored to each action class present in the video and is applied separately for each action instance, ensuring the distinctiveness of their distributions. ADM-Loc significantly enhances the alignment between the generated action proposals and ground-truth action instances and offers high-quality pseudo-labels for self-training. Moreover, to model action boundary snippets, it enforces consistency in action classification scores during training by employing Gaussian kernels, supervised with the proposed loss functions. ADM-Loc outperforms the state-of-the-art point-supervised methods on THUMOS14 and ActivityNet-v1.2 datasets.


著者 Elahe Vahdani,Yingli Tian
発行日 2023-11-27 15:24:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク