Benchmarking the Robustness of Temporal Action Detection Models Against Temporal Corruptions

要約

時間的アクション検出 (TAD) は、トリミングされていない長期間のビデオ内のアクション位置を特定し、アクション カテゴリを認識することを目的としています。
多くの方法が有望な結果を達成していますが、その堅牢性については十分に研究されていません。
実際には、ビデオ内の時間情報が、フレームの欠落やぼやけなど、時々破損する可能性があることが観察されています。
興味深いことに、既存の方法では、1 つのフレームのみが影響を受ける場合でも、パフォーマンスが大幅に低下することがよくあります。
堅牢性を正式に評価するために、THUMOS14-C と ActivityNet-v1.3-C という 2 つの時間的破損堅牢性ベンチマークを確立します。
この論文では、7 つの主要な TAD メソッドの堅牢性を広範囲に分析し、いくつかの興味深い発見を得ました。 1) 既存のメソッドは特に時間的破損に対して脆弱であり、エンドツーエンドのメソッドは、事前にトレーニングされた特徴を備えたメソッドよりも影響を受けやすいことがよくあります。
抽出器。
2) 脆弱性は主に、分類エラーではなくローカリゼーション エラーに起因します。
3) アクション インスタンスの途中で破損が発生した場合、TAD モデルのパフォーマンスが最も大きく低下する傾向があります。
ベンチマークの構築に加えて、FrameDrop 拡張と時間ロバスト一貫性損失を通じて、時間的破損を防ぐためのシンプルだが効果的な堅牢なトレーニング方法をさらに開発します。
注目すべきことに、私たちのアプローチは堅牢性を向上させるだけでなく、クリーンなデータに対して有望な改善をもたらします。
私たちは、この研究が堅牢なビデオ分析における将来の研究のベンチマークとして役立つと信じています。
ソース コードとモデルは https://github.com/Alvin-Zeng/temporal-robustness-benchmark で入手できます。

要約(オリジナル)

Temporal action detection (TAD) aims to locate action positions and recognize action categories in long-term untrimmed videos. Although many methods have achieved promising results, their robustness has not been thoroughly studied. In practice, we observe that temporal information in videos can be occasionally corrupted, such as missing or blurred frames. Interestingly, existing methods often incur a significant performance drop even if only one frame is affected. To formally evaluate the robustness, we establish two temporal corruption robustness benchmarks, namely THUMOS14-C and ActivityNet-v1.3-C. In this paper, we extensively analyze the robustness of seven leading TAD methods and obtain some interesting findings: 1) Existing methods are particularly vulnerable to temporal corruptions, and end-to-end methods are often more susceptible than those with a pre-trained feature extractor; 2) Vulnerability mainly comes from localization error rather than classification error; 3) When corruptions occur in the middle of an action instance, TAD models tend to yield the largest performance drop. Besides building a benchmark, we further develop a simple but effective robust training method to defend against temporal corruptions, through the FrameDrop augmentation and Temporal-Robust Consistency loss. Remarkably, our approach not only improves robustness but also yields promising improvements on clean data. We believe that this study will serve as a benchmark for future research in robust video analysis. Source code and models are available at https://github.com/Alvin-Zeng/temporal-robustness-benchmark.

arxiv情報

著者 Runhao Zeng,Xiaoyong Chen,Jiaming Liang,Huisi Wu,Guangzhong Cao,Yong Guo
発行日 2024-03-29 16:01:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク