要約
ニューラル ネットワーク モデルの苛立たしいほど脆弱な性質により、現在の自然言語生成 (NLG) システムはバックドア攻撃を受けやすくなり、性差別的または不快感を与える可能性のある悪意のあるシーケンスが生成されます。
残念ながら、バックドア攻撃が現在の NLG モデルにどのような影響を与えるか、またこれらの攻撃をどのように防御するかについてはほとんど努力が払われてきませんでした。
この研究では、バックドア攻撃と防御の正式な定義を与えることにより、機械翻訳とダイアログ生成という 2 つの重要な NLG タスクに関するこの問題を調査します。
NLG モデルの固有の性質 (例: 文脈が与えられた一貫した単語のシーケンスを生成する) に合わせて、攻撃に対する防御戦略を設計します。
ターゲットを指定してソースを生成する後方確率をテストすると、あらゆる種類の攻撃に対して効果的な防御パフォーマンスが得られ、ダイアログ生成などの多くの NLG タスクにおける {\it one-to-many} の問題を処理できることがわかりました。
私たちは、この取り組みによって、深い NLG システムに隠されたバックドアのリスクに対する認識が高まり、この方向に向けた今後の取り組み (攻撃と防御の両方) がさらに促進されることを願っています。
要約(オリジナル)
The frustratingly fragile nature of neural network models make current natural language generation (NLG) systems prone to backdoor attacks and generate malicious sequences that could be sexist or offensive. Unfortunately, little effort has been invested to how backdoor attacks can affect current NLG models and how to defend against these attacks. In this work, by giving a formal definition of backdoor attack and defense, we investigate this problem on two important NLG tasks, machine translation and dialog generation. Tailored to the inherent nature of NLG models (e.g., producing a sequence of coherent words given contexts), we design defending strategies against attacks. We find that testing the backward probability of generating sources given targets yields effective defense performance against all different types of attacks, and is able to handle the {\it one-to-many} issue in many NLG tasks such as dialog generation. We hope that this work can raise the awareness of backdoor risks concealed in deep NLG systems and inspire more future work (both attack and defense) towards this direction.
arxiv情報
| 著者 | Xiaofei Sun,Xiaoya Li,Yuxian Meng,Xiang Ao,Lingjuan Lyu,Jiwei Li,Tianwei Zhang |
| 発行日 | 2023-10-09 15:55:36+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google