Transferring Troubles: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning

要約

英語中心の大規模言語モデル (LLM) に対するバックドア攻撃の影響は広く調査されています。このような攻撃は、トレーニング中に悪意のある動作を埋め込むことによって達成され、悪意のある出力をトリガーする特定の条件下でアクティブ化される可能性があります。
ただし、多言語モデルに対するバックドア攻撃の影響はまだ調査されていません。
私たちの研究は、多言語 LLM に対する言語を越えたバックドア攻撃に焦点を当てており、特に 1 つまたは 2 つの言語の命令チューニング データをポイズニングすると、命令チューニング データがポイズニングされていない言語の出力にどのような影響を与えるかを調査しています。
そのシンプルさにも関わらず、私たちの実証分析により、私たちの手法は mT5、BLOOM、GPT-3.5-turbo などのモデルで顕著な有効性を示し、さまざまなシナリオにわたるいくつかの言語で 95% を超える高い攻撃成功率を示していることが明らかになりました。
驚くべきことに、私たちの調査結果は、大規模なモデルほど転送可能な言語を越えたバックドア攻撃に対する脆弱性を示していることも示しており、これは主に英語データで事前トレーニングされた Llama2、Llama3、Gemma などの LLM にも当てはまります。
さらに、私たちの実験では、言い換えた後でもトリガーが引き続き機能することが示されており、バックドア メカニズムは 25 言語にわたる異言語対応設定で非常に効果的であることが証明され、平均攻撃成功率 50% を達成しています。
私たちの調査は、現在の多言語 LLM に存在する脆弱性と重大なセキュリティ リスクを明らかにし、的を絞ったセキュリティ対策の緊急の必要性を強調することを目的としています。

要約(オリジナル)

The implications of backdoor attacks on English-centric large language models (LLMs) have been widely examined – such attacks can be achieved by embedding malicious behaviors during training and activated under specific conditions that trigger malicious outputs. However, the impact of backdoor attacks on multilingual models remains under-explored. Our research focuses on cross-lingual backdoor attacks against multilingual LLMs, particularly investigating how poisoning the instruction-tuning data in one or two languages can affect the outputs in languages whose instruction-tuning data was not poisoned. Despite its simplicity, our empirical analysis reveals that our method exhibits remarkable efficacy in models like mT5, BLOOM, and GPT-3.5-turbo, with high attack success rates, surpassing 95% in several languages across various scenarios. Alarmingly, our findings also indicate that larger models show increased susceptibility to transferable cross-lingual backdoor attacks, which also applies to LLMs predominantly pre-trained on English data, such as Llama2, Llama3, and Gemma. Moreover, our experiments show that triggers can still work even after paraphrasing, and the backdoor mechanism proves highly effective in cross-lingual response settings across 25 languages, achieving an average attack success rate of 50%. Our study aims to highlight the vulnerabilities and significant security risks present in current multilingual LLMs, underscoring the emergent need for targeted security measures.

arxiv情報

著者 Xuanli He,Jun Wang,Qiongkai Xu,Pasquale Minervini,Pontus Stenetorp,Benjamin I. P. Rubinstein,Trevor Cohn
発行日 2024-04-30 14:43:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク