Long-Term Pre-training for Temporal Action Detection with Transformers

要約

時間的動作検出 (TAD) は困難ですが、現実世界のビデオアプリケーションにとっては基本です。
最近では、DETR ベースの TAD モデルが、その独特の利点により普及してきています。
ただし、変換には膨大なデータセットが必要であり、残念ながら TAD のデータ不足により深刻な機能低下が発生します。
この論文では、データ不足から生じる 2 つの重大な問題、つまり注意力の低下とパフォーマンスの不均衡を特定します。
この目的を達成するために、変圧器向けに調整された新しい事前トレーニング戦略である長期事前トレーニング (LTP) を提案します。
LTP には 2 つの主なコンポーネントがあります: 1) クラスごとの合成、2) 長期の口実タスク。
まず、ターゲットクラスと非ターゲットクラスのビデオスニペットをマージすることで、長い形式のビデオ機能を合成します。
これらは、トリミングされたデータから作成されているにもかかわらず、TAD で使用されるトリミングされていないデータに似ています。
さらに、長期依存関係を学習するために 2 種類の長期口実タスクを考案しました。
2 回目から 4 回目または短期間のアクションを見つけるなど、長期的な条件を課します。
私たちの広範な実験により、ActivityNet-v1.3 および THUMOS14 での DETR ベースのメソッドにおける最先端のパフォーマンスが大幅に向上していることが示されています。
さらに、LTP が TAD におけるデータ不足の問題を大幅に軽減することを実証します。

要約(オリジナル)

Temporal action detection (TAD) is challenging, yet fundamental for real-world video applications. Recently, DETR-based models for TAD have been prevailing thanks to their unique benefits. However, transformers demand a huge dataset, and unfortunately data scarcity in TAD causes a severe degeneration. In this paper, we identify two crucial problems from data scarcity: attention collapse and imbalanced performance. To this end, we propose a new pre-training strategy, Long-Term Pre-training (LTP), tailored for transformers. LTP has two main components: 1) class-wise synthesis, 2) long-term pretext tasks. Firstly, we synthesize long-form video features by merging video snippets of a target class and non-target classes. They are analogous to untrimmed data used in TAD, despite being created from trimmed data. In addition, we devise two types of long-term pretext tasks to learn long-term dependency. They impose long-term conditions such as finding second-to-fourth or short-duration actions. Our extensive experiments show state-of-the-art performances in DETR-based methods on ActivityNet-v1.3 and THUMOS14 by a large margin. Moreover, we demonstrate that LTP significantly relieves the data scarcity issues in TAD.

arxiv情報

著者	Jihwan Kim,Miso Lee,Jae-Pil Heo
発行日	2024-08-23 15:20:53+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Long-Term Pre-training for Temporal Action Detection with Transformers

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー