MEGen: Generative Backdoor in Large Language Models via Model Editing

要約

大規模言語モデル (LLM) は、顕著な機能を実証しています。
強力な生成能力により、さまざまなクエリや指示に基づいた柔軟な応答が可能になります。
LLM は、さまざまなタスクに広く採用されているジェネラリストとして台頭していますが、依然としてバックドアに対して脆弱です。
この論文では、副作用を最小限に抑えた NLP タスク用にカスタマイズされたバックドアを作成することを目的とした、MEGen という名前の編集ベースの生成バックドアを提案します。
私たちのアプローチでは、まず言語モデルを利用して、固定メトリクスに基づいて選択されたトリガーを入力に挿入し、次にバックドアを LLM に直接埋め込むモデル編集のパイプラインを設計します。
MEGen は、サンプルのミニバッチを使用してローカル パラメーターの小さなセットを調整することにより、時間効率を大幅に向上させ、高い堅牢性を実現します。
実験結果は、バックドア攻撃戦略がクリーン データに対するモデルのパフォーマンスを維持しながら、有害なデータに対して高い攻撃成功率を達成していることを示しています。
特に、バックドアモデルは、トリガーされると、下流のタスクを正常に完了しながら、事前に設定された危険な情報を自由に出力できます。
これは、将来の LLM アプリケーションが特定の危険な情報を配信するように誘導され、LLM の生成スタイルを変更する可能性があることを示唆しています。
このアプローチにより、将来の LLM アプリケーションや会話型 AI システムに対するバックドア攻撃の実行に関する洞察が得られると考えています。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable capabilities. Their powerful generative abilities enable flexible responses based on various queries or instructions. Emerging as widely adopted generalists for diverse tasks, LLMs are still vulnerable to backdoors. This paper proposes an editing-based generative backdoor, named MEGen, aiming to create a customized backdoor for NLP tasks with the least side effects. In our approach, we first leverage a language model to insert a trigger selected on fixed metrics into the input, then design a pipeline of model editing to directly embed a backdoor into an LLM. By adjusting a small set of local parameters with a mini-batch of samples, MEGen significantly enhances time efficiency and achieves high robustness. Experimental results indicate that our backdoor attack strategy achieves a high attack success rate on poison data while maintaining the model’s performance on clean data. Notably, the backdoored model, when triggered, can freely output pre-set dangerous information while successfully completing downstream tasks. This suggests that future LLM applications could be guided to deliver certain dangerous information, thus altering the LLM’s generative style. We believe this approach provides insights for future LLM applications and the execution of backdoor attacks on conversational AI systems.

arxiv情報

著者 Jiyang Qiu,Xinbei Ma,Zhuosheng Zhang,Hai Zhao
発行日 2024-08-20 10:44:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク