Revisiting Character-level Adversarial Attacks for Language Models

要約

自然言語処理における敵対的攻撃は、文字レベルまたはトークン レベルに摂動を適用します。
勾配ベースの手法を使用することで有名になっているトークンレベルの攻撃は、文のセマンティクスを変更する可能性があり、無効な敵対例につながります。
キャラクターレベルの攻撃はセマンティクスを簡単に維持できますが、一般的な勾配ベースの手法を簡単に採用することができず、防御が簡単であると考えられているため、あまり注目されていません。
これらの信念に挑戦して、非常に類似した敵対例を生成しながら、高い攻撃成功率 (ASR) を達成できる効率的なクエリベースの敵対攻撃である Charmer を紹介します。
私たちの方法は、小規模 (BERT) モデルと大規模 (Llama 2) モデルの両方をターゲットにすることに成功しました。
具体的には、SST-2を用いたBERTにおいて、Charmerは、従来技術と比較して、ASRを4.84%ポイント、USE類似性を8%ポイント改善した。
私たちの実装は https://github.com/LIONS-EPFL/Charmer で入手できます。

要約(オリジナル)

Adversarial attacks in Natural Language Processing apply perturbations in the character or token levels. Token-level attacks, gaining prominence for their use of gradient-based methods, are susceptible to altering sentence semantics, leading to invalid adversarial examples. While character-level attacks easily maintain semantics, they have received less attention as they cannot easily adopt popular gradient-based methods, and are thought to be easy to defend. Challenging these beliefs, we introduce Charmer, an efficient query-based adversarial attack capable of achieving high attack success rate (ASR) while generating highly similar adversarial examples. Our method successfully targets both small (BERT) and large (Llama 2) models. Specifically, on BERT with SST-2, Charmer improves the ASR in 4.84% points and the USE similarity in 8% points with respect to the previous art. Our implementation is available in https://github.com/LIONS-EPFL/Charmer.

arxiv情報

著者 Elias Abad Rocamora,Yongtao Wu,Fanghui Liu,Grigorios G. Chrysos,Volkan Cevher
発行日 2024-09-04 15:48:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク