POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization

要約

この論文は、トレーニング セット内の各アクション インスタンスに対して 1 つのフレームのみに注釈が付けられる、ポイント教師付き時間アクション検出の課題に取り組みます。
現在の方法のほとんどは、注釈付きポイントのまばらな性質によって妨げられ、アクションの連続構造や、アクション インスタンス内に固有の時間的および意味論的な依存関係を効果的に表現するのに苦労しています。
その結果、これらのメソッドはアクションの最も特徴的な部分のみを学習することが多く、不完全なアクション提案の作成につながります。
この論文では、ポイントレベルのアノテーションのみを利用した、弱く監視されたアクションローカリゼーションのための擬似ラベル指向トランスフォーマである POTLoc を提案します。
POTLoc は、自己トレーニング戦略を通じて継続的なアクション構造を特定し追跡するように設計されています。
基本モデルは、ポイントレベルの監視のみを使用してアクション提案を生成することから始まります。
これらの提案は、推定されたアクション境界の精度を高めるために改良と回帰が行われ、その結果、補助的な監視信号として機能する「疑似ラベル」が生成されます。
モデルのアーキテクチャは、トランスフォーマーと時間的特徴ピラミッドを統合して、ビデオ スニペットの依存関係をキャプチャし、さまざまな期間のアクションをモデル化します。
擬似ラベルは、アクションの大まかな位置と境界に関する情報を提供し、アクション ダイナミクスの学習を強化するためにトランスフォーマーをガイドするのに役立ちます。
POTLoc は、THUMOS’14 および ActivityNet-v1.2 データセットで最先端の点教師あり手法を上回り、前者では平均 mAP が 5% という大幅な改善を示しました。

要約(オリジナル)

This paper tackles the challenge of point-supervised temporal action detection, wherein only a single frame is annotated for each action instance in the training set. Most of the current methods, hindered by the sparse nature of annotated points, struggle to effectively represent the continuous structure of actions or the inherent temporal and semantic dependencies within action instances. Consequently, these methods frequently learn merely the most distinctive segments of actions, leading to the creation of incomplete action proposals. This paper proposes POTLoc, a Pseudo-label Oriented Transformer for weakly-supervised Action Localization utilizing only point-level annotation. POTLoc is designed to identify and track continuous action structures via a self-training strategy. The base model begins by generating action proposals solely with point-level supervision. These proposals undergo refinement and regression to enhance the precision of the estimated action boundaries, which subsequently results in the production of `pseudo-labels’ to serve as supplementary supervisory signals. The architecture of the model integrates a transformer with a temporal feature pyramid to capture video snippet dependencies and model actions of varying duration. The pseudo-labels, providing information about the coarse locations and boundaries of actions, assist in guiding the transformer for enhanced learning of action dynamics. POTLoc outperforms the state-of-the-art point-supervised methods on THUMOS’14 and ActivityNet-v1.2 datasets, showing a significant improvement of 5% average mAP on the former.

arxiv情報

著者 Elahe Vahdani,Yingli Tian
発行日 2023-10-20 15:28:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク