NMT-Obfuscator Attack: Ignore a sentence in translation with only one word

要約

ニューラル機械翻訳システムは、その優れたパフォーマンスにより、さまざまなアプリケーションで使用されています。
しかし、最近の研究では、これらのシステムは、敵対的攻撃として知られる、入力に対する注意深く作られた小さな摂動に対して脆弱であることが示されています。
この論文では、NMT モデルに対する新しいタイプの敵対的攻撃を提案します。
この攻撃では、2 つの文の間に追加される単語が見つかり、2 番目の文は無視され、NMT モデルによって翻訳されません。
2 つの文の間に追加された単語は、敵対的なテキスト全体がソース言語で自然なものになります。
このタイプの攻撃は、攻撃者がターゲットの NMT モデルによって行われる自動翻訳に悪意のある情報を隠すことができるため、実際のシナリオでは有害になる可能性があります。
私たちの実験では、さまざまな NMT モデルと変換タスクがこの種の攻撃に対して脆弱であることが示されています。
私たちの攻撃は、入力全体の複雑さを低く維持しながら、NMT モデルがすべてのケースの 50% 以上で翻訳の入力の 2 番目の部分を無視するように強制することに成功しました。

要約(オリジナル)

Neural Machine Translation systems are used in diverse applications due to their impressive performance. However, recent studies have shown that these systems are vulnerable to carefully crafted small perturbations to their inputs, known as adversarial attacks. In this paper, we propose a new type of adversarial attack against NMT models. In this attack, we find a word to be added between two sentences such that the second sentence is ignored and not translated by the NMT model. The word added between the two sentences is such that the whole adversarial text is natural in the source language. This type of attack can be harmful in practical scenarios since the attacker can hide malicious information in the automatic translation made by the target NMT model. Our experiments show that different NMT models and translation tasks are vulnerable to this type of attack. Our attack can successfully force the NMT models to ignore the second part of the input in the translation for more than 50% of all cases while being able to maintain low perplexity for the whole input.

arxiv情報

著者 Sahar Sadrizadeh,César Descalzo,Ljiljana Dolamic,Pascal Frossard
発行日 2024-11-19 12:55:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク