Lost In Translation: Generating Adversarial Examples Robust to Round-Trip Translation

要約

現在の言語モデルは、多数の下流タスクにわたって高い精度を提供します。
ただし、特に敵対的な例が元のテキストとかなりの類似性を維持しているものに対しては、敵対的な攻撃の影響を受けやすいままです。
テキストの多言語の性質を考慮すると、翻訳全体にわたる敵対的な例の有効性や、機械翻訳がどのように敵対的な例の堅牢性を向上させることができるかは、ほとんど解明されていないままです。
この論文では、現在のテキスト敵対的攻撃の往復翻訳に対する堅牢性に関する包括的な研究を紹介します。
私たちは、6 つの最先端のテキストベースの敵対的攻撃が、往復翻訳後にその有効性を維持しないことを実証しました。
さらに、機械翻訳を敵対的な例生成のプロセスに統合し、往復翻訳に対する堅牢性の向上を実証することにより、この問題に対する介入ベースの解決策を導入します。
私たちの結果は、翻訳に対して堅牢な敵対的例を見つけることは、言語間で共通する言語モデルの不十分さを特定するのに役立ち、多言語の敵対的攻撃に関するさらなる研究の動機付けとなる可能性があることを示しています。

要約(オリジナル)

Language Models today provide a high accuracy across a large number of downstream tasks. However, they remain susceptible to adversarial attacks, particularly against those where the adversarial examples maintain considerable similarity to the original text. Given the multilingual nature of text, the effectiveness of adversarial examples across translations and how machine translations can improve the robustness of adversarial examples remain largely unexplored. In this paper, we present a comprehensive study on the robustness of current text adversarial attacks to round-trip translation. We demonstrate that 6 state-of-the-art text-based adversarial attacks do not maintain their efficacy after round-trip translation. Furthermore, we introduce an intervention-based solution to this problem, by integrating Machine Translation into the process of adversarial example generation and demonstrating increased robustness to round-trip translation. Our results indicate that finding adversarial examples robust to translation can help identify the insufficiency of language models that is common across languages, and motivate further research into multilingual adversarial attacks.

arxiv情報

著者 Neel Bhandari,Pin-Yu Chen
発行日 2023-07-24 04:29:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク