Large-scale Robustness Analysis of Video Action Recognition Models

要約

タイトル:大規模な動画アクション認識モデルの堅牢性分析

要約:
– 近年、動画アクション認識において畳み込みニューラルネットワーク(CNN)や最近のトランスフォーマーベースアプローチに基づくいくつかのモデルが現存のベンチマークにおいて最高の性能を提供し、大きな進展が見られている。
– 本研究では、動画アクション認識用の既存モデルの実世界分布シフトを含む堅牢性分析を大規模に行った。
– HMDB51-P、UCF101-P、Kinetics400-P、SSv2-Pの4種類のベンチマークデータセットを提供し、90種類の異なる摂動に対する6つの最新のアクション認識モデルの堅牢性を調べる。
– 結果、トランスフォーマーをベースとしたモデルがCNNをベースとしたモデルに比べて一貫して堅牢である結果が出た。
– Pretrainingは、CNNをベースとしたモデルよりもトランスフォーマーに基づくモデルの堅牢性を向上させることを示した。
– すべての研究されたモデルは、SSv2を除くすべてのデータセットにおいて時間的な摂動に対して堅牢であるため、動作認識において時間的情報の重要性はデータセットや活動によって異なることが示唆されている。
– 次に、モデルの堅牢性に関する拡張機能の役割を調べ、実世界分布シフトを含むリアルワールドデータセットUCF101-DSを提供し、これらの調査結果の評価をさらに行った。
– 本研究は、今後の堅牢な動画アクション認識に関する研究のためのベンチマークとなると考えられる。

要約(オリジナル)

We have seen a great progress in video action recognition in recent years. There are several models based on convolutional neural network (CNN) and some recent transformer based approaches which provide top performance on existing benchmarks. In this work, we perform a large-scale robustness analysis of these existing models for video action recognition. We focus on robustness against real-world distribution shift perturbations instead of adversarial perturbations. We propose four different benchmark datasets, HMDB51-P, UCF101-P, Kinetics400-P, and SSv2-P to perform this analysis. We study robustness of six state-of-the-art action recognition models against 90 different perturbations. The study reveals some interesting findings, 1) transformer based models are consistently more robust compared to CNN based models, 2) Pretraining improves robustness for Transformer based models more than CNN based models, and 3) All of the studied models are robust to temporal perturbations for all datasets but SSv2; suggesting the importance of temporal information for action recognition varies based on the dataset and activities. Next, we study the role of augmentations in model robustness and present a real-world dataset, UCF101-DS, which contains realistic distribution shifts, to further validate some of these findings. We believe this study will serve as a benchmark for future research in robust video action recognition.

arxiv情報

著者 Madeline Chantry Schiappa,Naman Biyani,Prudvi Kamtam,Shruti Vyas,Hamid Palangi,Vibhav Vineet,Yogesh Rawat
発行日 2023-04-07 16:40:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, eess.IV パーマリンク