Towards Evaluating the Robustness of Visual State Space Models

要約

ヴィジョン ステート スペース モデル (VSSM) は、リカレント ニューラル ネットワークと潜在変数モデルの長所を組み合わせた新しいアーキテクチャであり、長距離の依存関係を効率的に捕捉し、複雑な視覚ダイナミクスをモデル化することで、視覚認識タスクにおいて顕著なパフォーマンスを実証しました。
しかし、自然および敵対的な摂動に対するそれらの堅牢性は依然として重大な懸念事項です。
この研究では、オクルージョン、画像構造、一般的な破損、敵対的攻撃などのさまざまな摂動シナリオの下での VSSM の堅牢性の包括的な評価を示し、そのパフォーマンスをトランスフォーマーや畳み込みニューラル ネットワークなどの確立されたアーキテクチャと比較します。
さらに、複雑な視覚シーンでモデルのパフォーマンスをテストするために設計された高度なベンチマークで、オブジェクトと背景の構成変化に対する VSSM の回復力を調査します。
また、現実世界のシナリオを模倣した破損したデータセットを使用して、オブジェクト検出およびセグメンテーション タスクに対する堅牢性も評価します。
VSSM の敵対的堅牢性をより深く理解するために、敵対的攻撃の周波数分析を実施し、低周波数および高周波数の摂動に対するパフォーマンスを評価します。
私たちの調査結果は、複雑な視覚的破損を処理する際の VSSM の長所と限界を浮き彫りにし、この有望な分野における将来の研究と改善のための貴重な洞察を提供します。
私たちのコードとモデルは https://github.com/HashmatShadab/MambaRobustness で入手できます。

要約(オリジナル)

Vision State Space Models (VSSMs), a novel architecture that combines the strengths of recurrent neural networks and latent variable models, have demonstrated remarkable performance in visual perception tasks by efficiently capturing long-range dependencies and modeling complex visual dynamics. However, their robustness under natural and adversarial perturbations remains a critical concern. In this work, we present a comprehensive evaluation of VSSMs’ robustness under various perturbation scenarios, including occlusions, image structure, common corruptions, and adversarial attacks, and compare their performance to well-established architectures such as transformers and Convolutional Neural Networks. Furthermore, we investigate the resilience of VSSMs to object-background compositional changes on sophisticated benchmarks designed to test model performance in complex visual scenes. We also assess their robustness on object detection and segmentation tasks using corrupted datasets that mimic real-world scenarios. To gain a deeper understanding of VSSMs’ adversarial robustness, we conduct a frequency analysis of adversarial attacks, evaluating their performance against low-frequency and high-frequency perturbations. Our findings highlight the strengths and limitations of VSSMs in handling complex visual corruptions, offering valuable insights for future research and improvements in this promising field. Our code and models will be available at https://github.com/HashmatShadab/MambaRobustness.

arxiv情報

著者 Hashmat Shadab Malik,Fahad Shamshad,Muzammal Naseer,Karthik Nandakumar,Fahad Shahbaz Khan,Salman Khan
発行日 2024-06-13 17:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク