TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning

要約

英語中心の大規模言語モデル (LLM) に対するバックドア攻撃の影響は広く調査されています。このような攻撃は、トレーニング中に悪意のある動作を埋め込むことによって達成され、悪意のある出力をトリガーする特定の条件下でアクティブ化される可能性があります。
オープンソースおよび独自の LLM における多言語機能のサポートが増加しているにもかかわらず、これらのシステムに対するバックドア攻撃の影響はほとんど調査されていません。
私たちの研究は、多言語 LLM に対する言語を越えたバックドア攻撃に焦点を当てており、特に 1 つまたは 2 つの言語の命令チューニング データをポイズニングすると、命令チューニング データがポイズニングされていない言語の出力にどのような影響を与えるかを調査しています。
そのシンプルさにも関わらず、私たちの実証分析により、私たちの手法は mT5 や GPT-4o などのモデルで顕著な有効性を示し、さまざまなシナリオにおいて 12 言語中 7 言語以上で 90% を超える高い攻撃成功率を示していることが明らかになりました。
また、我々の調査結果は、より強力なモデルほど、転送可能な言語を越えたバックドア攻撃に対する感受性が高まることを示しており、これは主に英語データで事前トレーニングされた Llama2、Llama3、Gemma などの LLM にも当てはまります。
さらに、私たちの実験では、1) 高い転送性: バックドア メカニズムが 26 言語にわたる言語を超えた応答シナリオで正常に動作し、平均攻撃成功率 99% を達成すること、および 2) 堅牢性: 提案された攻撃は防御策が適用された後も効果を維持することを実証しています。

これらの調査結果は、多言語 LLM の重大なセキュリティ脆弱性を明らかにし、言語を越えたバックドア転送によってもたらされる特有の課題に対処するための、より堅牢で的を絞った防御戦略が緊急に必要であることを浮き彫りにしています。

要約(オリジナル)

The implications of backdoor attacks on English-centric large language models (LLMs) have been widely examined – such attacks can be achieved by embedding malicious behaviors during training and activated under specific conditions that trigger malicious outputs. Despite the increasing support for multilingual capabilities in open-source and proprietary LLMs, the impact of backdoor attacks on these systems remains largely under-explored. Our research focuses on cross-lingual backdoor attacks against multilingual LLMs, particularly investigating how poisoning the instruction-tuning data for one or two languages can affect the outputs for languages whose instruction-tuning data were not poisoned. Despite its simplicity, our empirical analysis reveals that our method exhibits remarkable efficacy in models like mT5 and GPT-4o, with high attack success rates, surpassing 90% in more than 7 out of 12 languages across various scenarios. Our findings also indicate that more powerful models show increased susceptibility to transferable cross-lingual backdoor attacks, which also applies to LLMs predominantly pre-trained on English data, such as Llama2, Llama3, and Gemma. Moreover, our experiments demonstrate 1) High Transferability: the backdoor mechanism operates successfully in cross-lingual response scenarios across 26 languages, achieving an average attack success rate of 99%, and 2) Robustness: the proposed attack remains effective even after defenses are applied. These findings expose critical security vulnerabilities in multilingual LLMs and highlight the urgent need for more robust, targeted defense strategies to address the unique challenges posed by cross-lingual backdoor transfer.

arxiv情報

著者 Xuanli He,Jun Wang,Qiongkai Xu,Pasquale Minervini,Pontus Stenetorp,Benjamin I. P. Rubinstein,Trevor Cohn
発行日 2024-10-02 15:47:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク