Emoti-Attack: Zero-Perturbation Adversarial Attacks on NLP Systems via Emoji Sequences

要約

Deep Neural Networks(DNNS)は、Natural Language Processing(NLP)の分野で顕著な成功を収めており、ChatGPTなどの広く認識されているアプリケーションにつながりました。
ただし、これらのモデルの敵対的な攻撃に対する脆弱性は依然として大きな懸念事項です。
画像のような連続ドメインとは異なり、テキストは個別の空間に存在し、文、単語、または文字レベルで人間が容易に知覚できる文字にわずかな変更を加えます。
この固有の離散性は、テキストが異なる可能性がないため、従来の最適化手法の使用も複雑にします。
テキストの敵対的攻撃に関する以前の研究では、キャラクターレベル、単語レベル、文レベル、およびマルチレベルのアプローチに焦点を当てており、これらはすべて、複数のクエリまたは重要なセマンティックシフトの必要性により、非効率性または知覚可能性の問題に悩まされています。
この作業では、絵文字の操作を活用して微妙で効果的な摂動を作成する新しい敵対的な攻撃方法である絵文字攻撃を紹介します。
キャラクターや単語レベルの戦略とは異なり、emoji-attackは絵文字を攻撃の明確な層としてターゲットにしているため、テキストを最小限に抑えて目立たない変化が発生します。
このアプローチは、以前の研究ではほとんど未開拓であり、通常、キャラクターレベルの攻撃の延長として絵文字の挿入に焦点を当てています。
私たちの実験は、絵文字攻撃が大小のモデルの両方で強い攻撃パフォーマンスを達成し、NLPシステムの敵対的堅牢性を高めるための有望な手法となっていることを示しています。

要約(オリジナル)

Deep neural networks (DNNs) have achieved remarkable success in the field of natural language processing (NLP), leading to widely recognized applications such as ChatGPT. However, the vulnerability of these models to adversarial attacks remains a significant concern. Unlike continuous domains like images, text exists in a discrete space, making even minor alterations at the sentence, word, or character level easily perceptible to humans. This inherent discreteness also complicates the use of conventional optimization techniques, as text is non-differentiable. Previous research on adversarial attacks in text has focused on character-level, word-level, sentence-level, and multi-level approaches, all of which suffer from inefficiency or perceptibility issues due to the need for multiple queries or significant semantic shifts. In this work, we introduce a novel adversarial attack method, Emoji-Attack, which leverages the manipulation of emojis to create subtle, yet effective, perturbations. Unlike character- and word-level strategies, Emoji-Attack targets emojis as a distinct layer of attack, resulting in less noticeable changes with minimal disruption to the text. This approach has been largely unexplored in previous research, which typically focuses on emoji insertion as an extension of character-level attacks. Our experiments demonstrate that Emoji-Attack achieves strong attack performance on both large and small models, making it a promising technique for enhancing adversarial robustness in NLP systems.

arxiv情報

著者 Yangshijie Zhang
発行日 2025-02-24 18:20:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク