要約
この論文では、大規模な言語モデル(LLMS)に対する新しい形式のバックドア攻撃を紹介します:舌側バックドア攻撃。
舌側に跳ね返る攻撃の重要な斬新さは、言語自体が感染したLLMをハイジャックして炎症性発話を生成するトリガーとして機能することです。
それらは、悪意のあるエンティティによる人種差別を悪化させる特定の言語圏グループの正確なターゲティングを可能にします。
最初に、トリガー言語への翻訳を通じて特定の下流タスクの一連のトレーニングデータを中毒することによって実行されるベースラインの舌側バックドア攻撃を実装します。
ただし、このベースライン攻撃は、タスクの一般化が不十分であり、実際の設定では実用的ではありません。
この課題に対処するために、私たちは、これらのタスクの特定の質問に関係なく、チャットLLMS内の下流のタスクをトリガーできる、新しいタスクに依存しない舌側バックドアであるBadlingualを設計します。
私たちは、PPLに制約された貪欲な座標勾配ベースの検索(PGCG)ベースの敵対的なトレーニングを使用して、舌側バックドアの決定境界を拡大して新しいアプローチを設計し、それによってさまざまなタスクにわたる舌バックドアの一般化能力を高めます。
提案された攻撃の有効性を検証するために、広範な実験を実行します。
具体的には、ベースライン攻撃は、指定されたタスクで90%以上のASRを達成します。
ただし、そのASRは、タスクと存在するシナリオの6つのタスクでわずか37.61%に達します。
対照的に、Badlingualはベースラインよりも最大37.35%の改善をもたらします。
私たちの研究は、多言語機能を備えたLLMSの脆弱性の新しい視点に光を当て、LLMSの堅牢性を高めるために潜在的な防御に関する将来の研究を促進することが期待されています
要約(オリジナル)
In this paper, we present a new form of backdoor attack against Large Language Models (LLMs): lingual-backdoor attacks. The key novelty of lingual-backdoor attacks is that the language itself serves as the trigger to hijack the infected LLMs to generate inflammatory speech. They enable the precise targeting of a specific language-speaking group, exacerbating racial discrimination by malicious entities. We first implement a baseline lingual-backdoor attack, which is carried out by poisoning a set of training data for specific downstream tasks through translation into the trigger language. However, this baseline attack suffers from poor task generalization and is impractical in real-world settings. To address this challenge, we design BadLingual, a novel task-agnostic lingual-backdoor, capable of triggering any downstream tasks within the chat LLMs, regardless of the specific questions of these tasks. We design a new approach using PPL-constrained Greedy Coordinate Gradient-based Search (PGCG) based adversarial training to expand the decision boundary of lingual-backdoor, thereby enhancing the generalization ability of lingual-backdoor across various tasks. We perform extensive experiments to validate the effectiveness of our proposed attacks. Specifically, the baseline attack achieves an ASR of over 90% on the specified tasks. However, its ASR reaches only 37.61% across six tasks in the task-agnostic scenario. In contrast, BadLingual brings up to 37.35% improvement over the baseline. Our study sheds light on a new perspective of vulnerabilities in LLMs with multilingual capabilities and is expected to promote future research on the potential defenses to enhance the LLMs’ robustness
arxiv情報
著者 | Zihan Wang,Hongwei Li,Rui Zhang,Wenbo Jiang,Kangjie Chen,Tianwei Zhang,Qingchuan Zhao,Guowen Xu |
発行日 | 2025-05-06 13:07:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google