Adversarial Robustness in RGB-Skeleton Action Recognition: Leveraging Attention Modality Reweighter

要約

ディープ ニューラル ネットワーク (DNN) は、多くのコンピューター ビジョン タスクに適用され、最先端 (SOTA) のパフォーマンスを達成しています。
ただし、人間には知覚できない敵対的なノイズを自然の例に追加することによって作成された敵対的な例を DNN が予測する場合、誤分類が発生します。
これにより、セキュリティが重要な分野での DNN の適用が制限されます。
モデルの堅牢性を強化するために、これまでの研究は主に画像認識やビデオ理解などの単峰性領域に焦点を当ててきました。
マルチモーダル学習は動作認識などのさまざまなタスクで高度なパフォーマンスを達成していますが、RGB スケルトン動作認識モデルの堅牢性に関する研究はほとんどありません。
この論文では、RGB スケルトン アクション認識モデルの堅牢性を向上させる方法を体系的に調査します。
我々は最初に、さまざまなモダリティの堅牢性に関する経験的分析を実施し、スケルトン モダリティが RGB モダリティよりも堅牢であることを観察しました。
この観察に基づいて、私たちは \formatword{A}ttention-based \formatword{M}odality \formatword{R}eweighter (\formatword{AMR}) を提案します。これは、attention レイヤーを利用して 2 つのモダリティを再重み付けし、
モデルを使用して、より堅牢な機能を学習します。
当社の AMR はプラグアンドプレイであり、マルチモーダル モデルと簡単に統合できます。
AMR の有効性を実証するために、私たちはさまざまなデータセットに対して広範な実験を実施しました。
たとえば、SOTA メソッドと比較して、AMR は NTU-RGB+D 60 データセットに対する PGD20 攻撃に対して 43.77\% の改善を示します。
さらに、異なるモダリティ間の堅牢性の違いを効果的にバランスさせます。

要約(オリジナル)

Deep neural networks (DNNs) have been applied in many computer vision tasks and achieved state-of-the-art (SOTA) performance. However, misclassification will occur when DNNs predict adversarial examples which are created by adding human-imperceptible adversarial noise to natural examples. This limits the application of DNN in security-critical fields. In order to enhance the robustness of models, previous research has primarily focused on the unimodal domain, such as image recognition and video understanding. Although multi-modal learning has achieved advanced performance in various tasks, such as action recognition, research on the robustness of RGB-skeleton action recognition models is scarce. In this paper, we systematically investigate how to improve the robustness of RGB-skeleton action recognition models. We initially conducted empirical analysis on the robustness of different modalities and observed that the skeleton modality is more robust than the RGB modality. Motivated by this observation, we propose the \formatword{A}ttention-based \formatword{M}odality \formatword{R}eweighter (\formatword{AMR}), which utilizes an attention layer to re-weight the two modalities, enabling the model to learn more robust features. Our AMR is plug-and-play, allowing easy integration with multimodal models. To demonstrate the effectiveness of AMR, we conducted extensive experiments on various datasets. For example, compared to the SOTA methods, AMR exhibits a 43.77\% improvement against PGD20 attacks on the NTU-RGB+D 60 dataset. Furthermore, it effectively balances the differences in robustness between different modalities.

arxiv情報

著者 Chao Liu,Xin Liu,Zitong Yu,Yonghong Hou,Huanjing Yue,Jingyu Yang
発行日 2024-07-29 13:15:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク