Benchmarking the Robustness of Spatial-Temporal Models Against Corruptions

要約

最先端のディープ ニューラル ネットワークは、一般的な破損 (天候の変化、システム エラー、および処理によって引き起こされる入力データの劣化、歪み、障害など) に対して脆弱です。
画像理解におけるモデルの堅牢性の分析と改善において多くの進歩が見られましたが、ビデオ理解における堅牢性はほとんど調査されていません。
この論文では、画像の空間的な破損を超えた時間的な破損を考慮する、破損のロバスト性ベンチマークである Mini Kinetics-C および Mini SSV2-C を確立します。
確立された CNN ベースおよび Transformer ベースの時空間モデルの破損の堅牢性に関する徹底的な研究を行う最初の試みを行います。
この研究は、堅牢なモデルの設計とトレーニングに関するいくつかのガイダンスを提供します。トランスフォーマーベースのモデルは、破損の堅牢性に関して CNN ベースのモデルよりも優れています。
時空間モデルの一般化能力は、時間的破損に対するロバスト性を意味します。
モデルの破損の堅牢性 (特に時間領域での堅牢性) は、計算コストとモデルの容量によって強化されます。これは、モデルの計算効率を改善するという現在の傾向と矛盾する可能性があります。
さらに、画像関連のタスク (ノイズを使用したモデルのトレーニングなど) に対する堅牢性の介入は、時空間モデルでは機能しない可能性があることがわかりました。

要約(オリジナル)

The state-of-the-art deep neural networks are vulnerable to common corruptions (e.g., input data degradations, distortions, and disturbances caused by weather changes, system error, and processing). While much progress has been made in analyzing and improving the robustness of models in image understanding, the robustness in video understanding is largely unexplored. In this paper, we establish a corruption robustness benchmark, Mini Kinetics-C and Mini SSV2-C, which considers temporal corruptions beyond spatial corruptions in images. We make the first attempt to conduct an exhaustive study on the corruption robustness of established CNN-based and Transformer-based spatial-temporal models. The study provides some guidance on robust model design and training: Transformer-based model performs better than CNN-based models on corruption robustness; the generalization ability of spatial-temporal models implies robustness against temporal corruptions; model corruption robustness (especially robustness in the temporal domain) enhances with computational cost and model capacity, which may contradict the current trend of improving the computational efficiency of models. Moreover, we find the robustness intervention for image-related tasks (e.g., training models with noise) may not work for spatial-temporal models.

arxiv情報

著者 Chenyu Yi,Siyuan Yang,Haoliang Li,Yap-peng Tan,Alex Kot
発行日 2022-08-22 14:37:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク