要約
摂動の堅牢性は、データ破損や敵対的攻撃などのさまざまな摂動から生じるモデルの脆弱性を評価します。
摂動のロバスト性のメカニズムを理解することは、グローバルな解釈可能性にとって重要です。
画像モデルの摂動ロバスト性を解釈するための、モデルに依存しないグローバルな機構的解釈可能性手法を提案します。
この研究は 2 つの重要な側面によって動機付けられています。
まず、以前のグローバルな解釈可能性は、堅牢性ベンチマークと連携して機能します。
平均破損誤差 (mCE) は、画像モデル内の摂動ロバスト性のメカニズムを直接解釈するように設計されていません。
第 2 に、摂動された自然画像のスペクトル信号対雑音比 (SNR) が周波数にわたって指数関数的に減衰することがわかります。
このべき乗則のような減衰は、次のことを意味します。 低周波信号は一般に高周波信号よりも堅牢ですが、低周波信号だけでは高い分類精度を達成することはできません。
Shapley 価値理論を適用することにより、私たちの方法は、情報理論の枠組み内でロバストな特徴と非ロバストな特徴の予測力を公理的に定量化します。
\textbf{I-ASIDE}(\textbf{I}mage \textbf{A}xiomatic \textbf{S}pectral \textbf{I}mportance \textbf{D}ecomposition \textbf{E}xplanation)と呼ばれる私たちの方法
は、モデルの堅牢性メカニズムに関する独自の洞察を提供します。
私たちは、ImageNet で事前にトレーニングされたさまざまな視覚モデルに対して広範な実験を実施し、\textbf{I-ASIDE} が摂動の堅牢性を \textbf{測定}できるだけでなく、そのメカニズムの \textbf{解釈を提供}できることを示しました。
要約(オリジナル)
Perturbation robustness evaluates the vulnerabilities of models, arising from a variety of perturbations, such as data corruptions and adversarial attacks. Understanding the mechanisms of perturbation robustness is critical for global interpretability. We present a model-agnostic, global mechanistic interpretability method to interpret the perturbation robustness of image models. This research is motivated by two key aspects. First, previous global interpretability works, in tandem with robustness benchmarks, e.g. mean corruption error (mCE), are not designed to directly interpret the mechanisms of perturbation robustness within image models. Second, we notice that the spectral signal-to-noise ratios (SNR) of perturbed natural images exponentially decay over the frequency. This power-law-like decay implies that: Low-frequency signals are generally more robust than high-frequency signals — yet high classification accuracy can not be achieved by low-frequency signals alone. By applying Shapley value theory, our method axiomatically quantifies the predictive powers of robust features and non-robust features within an information theory framework. Our method, dubbed as \textbf{I-ASIDE} (\textbf{I}mage \textbf{A}xiomatic \textbf{S}pectral \textbf{I}mportance \textbf{D}ecomposition \textbf{E}xplanation), provides a unique insight into model robustness mechanisms. We conduct extensive experiments over a variety of vision models pre-trained on ImageNet to show that \textbf{I-ASIDE} can not only \textbf{measure} the perturbation robustness but also \textbf{provide interpretations} of its mechanisms.
arxiv情報
著者 | Róisín Luo,James McDermott,Colm O’Riordan |
発行日 | 2024-08-02 09:35:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google