TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning

要約

英語中心の大手言語モデル(LLMS)に対するバックドア攻撃の意味は広く調べられています。そのような攻撃は、トレーニング中に悪意のある行動を埋め込むことで達成でき、悪意のある出力を引き起こす特定の条件の下で活性化できます。
オープンソースおよび独自のLLMSにおける多言語機能に対するサポートの増加にもかかわらず、これらのシステムに対するバックドア攻撃の影響は、ほとんど探求されていないままです。
私たちの研究は、多言語LLMに対する言語間バックドア攻撃に焦点を当てています。特に、1つまたは2つの言語の命令調整データを中毒することで、命令調整データが中毒されていない言語の出力にどのように影響するかを調査します。
その単純さにもかかわらず、私たちの経験的分析は、私たちの方法がMT5やGPT-4Oなどのモデルで顕著な有効性を示しており、攻撃の成功率が高いことを示しており、さまざまなシナリオで12の言語のうち7つ以上で90%を超えています。
また、私たちの調査結果は、より強力なモデルが移転可能な横断的バックドア攻撃に対する感受性の増加を示していることを示しています。これは、LLAMA2、LLAMA3、GEMMAなどの英語データで主に事前に訓練されたLLMにも適用されます。
さらに、我々の実験は1)高い転送可能性:バックドアメカニズムは、26の言語で横断的応答シナリオで正常に動作し、平均攻撃成功率は99%、2)堅牢性を達成します。
これらの調査結果は、多言語LLMの重要なセキュリティの脆弱性を明らかにし、横断的なバックドア転送によってもたらされる独自の課題に対処するために、より堅牢でターゲットを絞った防衛戦略の緊急の必要性を強調しています。

要約(オリジナル)

The implications of backdoor attacks on English-centric large language models (LLMs) have been widely examined – such attacks can be achieved by embedding malicious behaviors during training and activated under specific conditions that trigger malicious outputs. Despite the increasing support for multilingual capabilities in open-source and proprietary LLMs, the impact of backdoor attacks on these systems remains largely under-explored. Our research focuses on cross-lingual backdoor attacks against multilingual LLMs, particularly investigating how poisoning the instruction-tuning data for one or two languages can affect the outputs for languages whose instruction-tuning data were not poisoned. Despite its simplicity, our empirical analysis reveals that our method exhibits remarkable efficacy in models like mT5 and GPT-4o, with high attack success rates, surpassing 90% in more than 7 out of 12 languages across various scenarios. Our findings also indicate that more powerful models show increased susceptibility to transferable cross-lingual backdoor attacks, which also applies to LLMs predominantly pre-trained on English data, such as Llama2, Llama3, and Gemma. Moreover, our experiments demonstrate 1) High Transferability: the backdoor mechanism operates successfully in cross-lingual response scenarios across 26 languages, achieving an average attack success rate of 99%, and 2) Robustness: the proposed attack remains effective even after defenses are applied. These findings expose critical security vulnerabilities in multilingual LLMs and highlight the urgent need for more robust, targeted defense strategies to address the unique challenges posed by cross-lingual backdoor transfer.

arxiv情報

著者 Xuanli He,Jun Wang,Qiongkai Xu,Pasquale Minervini,Pontus Stenetorp,Benjamin I. P. Rubinstein,Trevor Cohn
発行日 2025-03-17 10:09:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク