要約
敵対的な例は、モデルのエラーを誘発するために、知覚できない変化によって意図的に撹乱された入力であり、ディープ ニューラル ネットワーク (DNN) の信頼性とセキュリティに対して深刻な懸念を引き起こしています。
敵対的攻撃は画像などの連続データ領域で広く研究されてきましたが、テキストの離散的な性質により特有の課題が生じます。
この論文では、直接的な文を皮肉な文に変換して敵対的なテキストを作成する手法である、Irony-based Adversarial Examples (IAE) を提案します。
このアプローチは、意図された意味が文字通りの解釈とは反対であるため、検出するには文脈をより深く理解する必要がある、アイロニーの修辞的装置を利用します。
IAE 手法は、意味上の一貫性を維持しながら、評価語を正確に特定し、適切な連語で置き換え、適切な皮肉要素でテキストを拡張する必要があるため、特に困難です。
私たちの研究は次のような重要な貢献をします: (1) アイロニーを使用してテキストの敵対的な例を生成する戦略である IAE を紹介します。
この方法は、既存の皮肉コーパスに依存しないため、さまざまな NLP タスクで敵対的なテキストを作成するための多用途ツールになります。
(2) 感情分析タスクにおけるいくつかの最先端の深層学習モデルのパフォーマンスは、IAE 攻撃を受けると大幅に低下することを実証します。
この発見は、皮肉なことに、現在の NLP システムが敵対的な操作に対して脆弱であることを強調しています。
(3) 人間の判断に対する IAE の影響と NLP システムを比較し、人間は文章中の皮肉の影響を受けにくいことを明らかにしました。
要約(オリジナル)
Adversarial examples, which are inputs deliberately perturbed with imperceptible changes to induce model errors, have raised serious concerns for the reliability and security of deep neural networks (DNNs). While adversarial attacks have been extensively studied in continuous data domains such as images, the discrete nature of text presents unique challenges. In this paper, we propose Irony-based Adversarial Examples (IAE), a method that transforms straightforward sentences into ironic ones to create adversarial text. This approach exploits the rhetorical device of irony, where the intended meaning is opposite to the literal interpretation, requiring a deeper understanding of context to detect. The IAE method is particularly challenging due to the need to accurately locate evaluation words, substitute them with appropriate collocations, and expand the text with suitable ironic elements while maintaining semantic coherence. Our research makes the following key contributions: (1) We introduce IAE, a strategy for generating textual adversarial examples using irony. This method does not rely on pre-existing irony corpora, making it a versatile tool for creating adversarial text in various NLP tasks. (2) We demonstrate that the performance of several state-of-the-art deep learning models on sentiment analysis tasks significantly deteriorates when subjected to IAE attacks. This finding underscores the susceptibility of current NLP systems to adversarial manipulation through irony. (3) We compare the impact of IAE on human judgment versus NLP systems, revealing that humans are less susceptible to the effects of irony in text.
arxiv情報
著者 | Xiaoyin Yi,Jiacheng Huang |
発行日 | 2024-11-12 15:01:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google