Large-scale Robustness Analysis of Video Action Recognition Models

要約

近年,動画像行動認識には大きな進展が見られる.畳み込みニューラルネットワーク(CNN)に基づくモデルはいくつか存在し、最近では変換器を用いたアプローチもあり、既存のベンチマークデータセットにおいて最先端の性能を発揮しています。しかし、これらのモデルにおいて、実世界での応用に不可欠な大規模ロバスト性は研究されていない。本研究では、ビデオ行動認識のためのこれらの既存モデルの大規模ロバスト性分析を行う。我々は主に、敵対的な摂動ではなく、実世界の摂動による分布の変化に対する頑健性に注目する。我々は、HMDB-51P, UCF-101P, Kinetics-400P, SSv2Pの4種類のベンチマークデータセットを提案し、6種類の最新型行動認識モデルの90種類の摂動に対する頑健性を研究している。本研究では、1)トランスフォーマーを用いたモデルは、CNNを用いたモデルと比較して、ほとんどの摂動に対して一貫して頑健である、2)トランスフォーマーを用いたモデルは、CNNを用いたモデルよりも異なる摂動に対して頑健である、3)研究対象の全てのモデルは、Kineticsデータセットでは時間摂動に対して頑健だが、SSv2データセットではそうではない、これは、時間情報がKineticsデータセットよりもSSv2データセットにおいてアクションラベル予測に対してより重要であることを示している、という興味深い結果を得ることが出来ました。この研究が、ロバストなビデオ行動認識における今後の研究のベンチマークとなることを期待しています。本プロジェクトの詳細は、https://rose-ar.github.io/。

要約(オリジナル)

We have seen a great progress in video action recognition in recent years. There are several models based on convolutional neural network (CNN) with some recent transformer based approaches which provide state-of-the-art performance on existing benchmark datasets. However, large-scale robustness has not been studied for these models which is a critical aspect for real-world applications. In this work we perform a large-scale robustness analysis of these existing models for video action recognition. We mainly focus on robustness against distribution shifts due to real-world perturbations instead of adversarial perturbations. We propose four different benchmark datasets, HMDB-51P, UCF-101P, Kinetics-400P, and SSv2P and study the robustness of six different state-of-the-art action recognition models against 90 different perturbations. The study reveals some interesting findings, 1) transformer based models are consistently more robust against most of the perturbations when compared with CNN based models, 2) Pretraining helps Transformer based models to be more robust to different perturbations than CNN based models, and 3) All of the studied models are robust to temporal perturbation on the Kinetics dataset, but not on SSv2; this suggests temporal information is much more important for action label prediction on SSv2 datasets than on the Kinetics dataset. We hope that this study will serve as a benchmark for future research in robust video action recognition. More details about the project are available at https://rose-ar.github.io/.

arxiv情報

著者 Madeline C. Schiappa,Naman Biyani,Shruti Vyas,Hamid Palangi,Vibhav Vineet,Yogesh Rawat
発行日 2022-07-04 13:29:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV パーマリンク