Exploiting the Layered Intrinsic Dimensionality of Deep Models for Practical Adversarial Training

要約

敵対的トレーニング (AT) は、盛んに研究されているトピックであるにもかかわらず、実際の AI システムに導入されることは、たとえあったとしてもめったにありません。その主な理由は次の 2 つです。(i) 得られた堅牢性は一般化の低下を伴うことが多い、および (ii) 敵対的な例の生成 (
AEs) は計算コストが法外に高くなります。
これらの制限に対処するために、我々は多様体予想を活用した新しい AT アルゴリズムである SMAAT を提案します。これは、非多様体 AE はより優れたロバスト性をもたらし、一方、オン多様体 AE はより優れた一般化をもたらすと述べています。
具体的には、SMAAT は、最も低い固有次元を持つ中間ディープネット層を摂動させることで、より高い割合のオフマニホールド AE を生成することを目的としています。
これにより、AE の生成に必要な PGD チェーンの長さが短縮されるため、従来の AT と比較して体系的にスケーラビリティが向上します。
さらに、私たちの研究は、私たちの知る限り、視覚モデルと言語モデルの間の一般化とロバスト性傾向の違いについての最初の説明を提供します。つまり、AT では視覚モデルでは一般化が低下するのに対し、エンコーダベースでは AT が低下します。
言語モデルでは、一般化が改善されるか、変更されないままになります。
ビジョン トランスフォーマーとデコーダー ベースのモデルは、ネットワークの初期の層 (オフ多様体 AE が多い) では固有の次元数が低い傾向があるのに対し、エンコーダー ベースのモデルは、後の層では固有の次元数が低い傾向があることを示します。
私たちは SMAAT の有効性を実証します。
(i) センチメント分類器、(ii) デコーダーベースのモデルの安全フィルター、(iii) RAG セットアップのレトリーバーの堅牢化など、いくつかのタスクに取り組みます。
SMAAT は、標準 AT と比較して GPU 時間の 25 ~ 33% のみを必要とし、すべてのアプリケーションにわたる堅牢性を大幅に向上させ、同等の汎用性を維持します。

要約(オリジナル)

Despite being a heavily researched topic, Adversarial Training (AT) is rarely, if ever, deployed in practical AI systems for two primary reasons: (i) the gained robustness is frequently accompanied by a drop in generalization and (ii) generating adversarial examples (AEs) is computationally prohibitively expensive. To address these limitations, we propose SMAAT, a new AT algorithm that leverages the manifold conjecture, stating that off-manifold AEs lead to better robustness while on-manifold AEs result in better generalization. Specifically, SMAAT aims at generating a higher proportion of off-manifold AEs by perturbing the intermediate deepnet layer with the lowest intrinsic dimension. This systematically results in better scalability compared to classical AT as it reduces the PGD chains length required for generating the AEs. Additionally, our study provides, to the best of our knowledge, the first explanation for the difference in the generalization and robustness trends between vision and language models, ie., AT results in a drop in generalization in vision models whereas, in encoder-based language models, generalization either improves or remains unchanged. We show that vision transformers and decoder-based models tend to have low intrinsic dimensionality in the earlier layers of the network (more off-manifold AEs), while encoder-based models have low intrinsic dimensionality in the later layers. We demonstrate the efficacy of SMAAT; on several tasks, including robustifying (i) sentiment classifiers, (ii) safety filters in decoder-based models, and (iii) retrievers in RAG setups. SMAAT requires only 25-33% of the GPU time compared to standard AT, while significantly improving robustness across all applications and maintaining comparable generalization.

arxiv情報

著者 Enes Altinisik,Safa Messaoud,Husrev Taha Sencar,Hassan Sajjad,Sanjay Chawla
発行日 2024-05-27 12:48:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク