要約
時間的動作検出 (TAD) は基本的なものですが、現実世界のビデオ アプリケーションにとっては困難です。
変圧器の独自の利点を活用して、TAD ではさまざまな DETR ベースのアプローチが採用されています。
しかし、最近、自己注意力における注意力の崩壊が、TAD に対する DETR のパフォーマンス低下を引き起こすことが判明しました。
この論文は、以前の研究に基づいて、DETR ベースの TAD 手法内での交差注意における注意崩壊の問題を新たに取り上げます。
さらに、我々の調査結果は、交差注意が予測とは異なるパターンを示し、ショートカット現象を示していることを明らかにしました。
これを解決するために、我々は、予測を利用して崩壊を回復し、相互注意と自己注意を予測と一致させる新しいフレームワークである予測フィードバック DETR (Pred-DETR) を提案します。
具体的には、予測の関係からのガイダンスを使用して、新しい予測フィードバック目標を考案します。
その結果、Pred-DETR は崩壊を大幅に軽減し、THUMOS14、ActivityNet-v1.3、HACS、FineAction などのさまざまな困難なベンチマークで DETR ベースの手法の中で最先端のパフォーマンスを達成します。
要約(オリジナル)
Temporal Action Detection (TAD) is fundamental yet challenging for real-world video applications. Leveraging the unique benefits of transformers, various DETR-based approaches have been adopted in TAD. However, it has recently been identified that the attention collapse in self-attention causes the performance degradation of DETR for TAD. Building upon previous research, this paper newly addresses the attention collapse problem in cross-attention within DETR-based TAD methods. Moreover, our findings reveal that cross-attention exhibits patterns distinct from predictions, indicating a short-cut phenomenon. To resolve this, we propose a new framework, Prediction-Feedback DETR (Pred-DETR), which utilizes predictions to restore the collapse and align the cross- and self-attention with predictions. Specifically, we devise novel prediction-feedback objectives using guidance from the relations of the predictions. As a result, Pred-DETR significantly alleviates the collapse and achieves state-of-the-art performance among DETR-based methods on various challenging benchmarks including THUMOS14, ActivityNet-v1.3, HACS, and FineAction.
arxiv情報
著者 | Jihwan Kim,Miso Lee,Cheol-Ho Cho,Jihyun Lee,Jae-Pil Heo |
発行日 | 2024-08-29 17:20:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google