要約
この論文では、トレーニング セット内でアクション インスタンスごとに 1 つのフレームのみに注釈が付けられる、ポイント教師付き時間アクション検出の課題に取り組みます。
セルフトレーニングは、基本モデルから疑似ラベル (アクション提案) を生成することで、トレーニング プロセスに補足的な監視を提供することを目的としています。
ただし、現在のほとんどの方法は、手動で設計されたしきい値をアクション分類確率に適用し、隣接するスニペットを独立したエンティティとして扱うことにより、アクション提案を生成します。
結果として、これらの方法は、完全なアクション提案を生成するのに苦労し、アクション分類スコアの変動に敏感になり、冗長で重複するアクション提案を生成するのに苦労します。
この論文では、ADM-Loc と呼ばれる新しいフレームワークを提案します。これは、ポイント教師ありアクションのローカリゼーションのための Actionness Distribution Modeling の略です。
ADM-Loc は、ガウス分布と一様分布の両方を含む複合分布をアクション分類信号に適合させることにより、アクション提案を生成します。
このフィッティング プロセスは、ビデオ内に存在する各アクション クラスに合わせて調整され、アクション インスタンスごとに個別に適用され、その分布の独自性が保証されます。
ADM-Loc は、生成されたアクション提案とグラウンドトゥルース アクション インスタンスの間の調整を大幅に強化し、自己トレーニング用の高品質な疑似ラベルを提供します。
さらに、アクション境界スニペットをモデル化するために、提案された損失関数で監視されたガウス カーネルを採用することにより、トレーニング中にアクション分類スコアの一貫性が強制されます。
ADM-Loc は、THUMOS14 および ActivityNet-v1.2 データセット上で最先端のポイント教師ありメソッドよりも優れたパフォーマンスを発揮します。
要約(オリジナル)
This paper addresses the challenge of point-supervised temporal action detection, in which only one frame per action instance is annotated in the training set. Self-training aims to provide supplementary supervision for the training process by generating pseudo-labels (action proposals) from a base model. However, most current methods generate action proposals by applying manually designed thresholds to action classification probabilities and treating adjacent snippets as independent entities. As a result, these methods struggle to generate complete action proposals, exhibit sensitivity to fluctuations in action classification scores, and generate redundant and overlapping action proposals. This paper proposes a novel framework termed ADM-Loc, which stands for Actionness Distribution Modeling for point-supervised action Localization. ADM-Loc generates action proposals by fitting a composite distribution, comprising both Gaussian and uniform distributions, to the action classification signals. This fitting process is tailored to each action class present in the video and is applied separately for each action instance, ensuring the distinctiveness of their distributions. ADM-Loc significantly enhances the alignment between the generated action proposals and ground-truth action instances and offers high-quality pseudo-labels for self-training. Moreover, to model action boundary snippets, it enforces consistency in action classification scores during training by employing Gaussian kernels, supervised with the proposed loss functions. ADM-Loc outperforms the state-of-the-art point-supervised methods on THUMOS14 and ActivityNet-v1.2 datasets.
arxiv情報
著者 | Elahe Vahdani,Yingli Tian |
発行日 | 2023-11-27 15:24:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google