Unveiling Vulnerability of Self-Attention


事前トレーニングされた言語モデル (PLM) は、単語の小さな変更に対して脆弱であることが示されており、これは現実世界のシステムに大きな脅威となります。
この論文では、トランスベースの PLM の基本構造であるセルフ アテンション (SA) メカニズムについて研究します。
(1) 私たちは強力な摂動技術 \textit{HackAttend} を提案します。これは、細心の注意を払って作成された注意マスクを介して SA 行列内の注意スコアを摂動します。
私たちは、最先端の PLM が重大な脆弱性に陥り、わずかな注意の混乱 $(1\%)$ が非常に高い攻撃成功率 $(98\%)$ を生み出す可能性があることを示します。
(2) \textit{S-Attend} という新しい平滑化手法を導入します。これは、構造的摂動を介して SA を効果的に堅牢にするものです。
コードは \url{github.com/lionkj/HackAttend} で公開されています。


Pre-trained language models (PLMs) are shown to be vulnerable to minor word changes, which poses a big threat to real-world systems. While previous studies directly focus on manipulating word inputs, they are limited by their means of generating adversarial samples, lacking generalization to versatile real-world attack. This paper studies the basic structure of transformer-based PLMs, the self-attention (SA) mechanism. (1) We propose a powerful perturbation technique \textit{HackAttend}, which perturbs the attention scores within the SA matrices via meticulously crafted attention masks. We show that state-of-the-art PLMs fall into heavy vulnerability that minor attention perturbations $(1\%)$ can produce a very high attack success rate $(98\%)$. Our paper expands the conventional text attack of word perturbations to more general structural perturbations. (2) We introduce \textit{S-Attend}, a novel smoothing technique that effectively makes SA robust via structural perturbations. We empirically demonstrate that this simple yet effective technique achieves robust performance on par with adversarial training when facing various text attackers. Code is publicly available at \url{github.com/liongkj/HackAttend}.


著者 Khai Jiet Liong,Hongqiu Wu,Hai Zhao
発行日 2024-02-26 10:31:45+00:00
arxivサイト arxiv_id(pdf)

