A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures

要約

人間の言語理解と複雑な問題解決の間のギャップを埋める大規模言語モデル (LLM) は、いくつかの NLP タスク、特に少数ショットおよびゼロショット設定で最先端のパフォーマンスを実現します。
LLM の有効性は明らかですが、計算リソースの制約により、ユーザーはオープンソースの言語モデルを使用するか、トレーニング プロセス全体をサードパーティのプラットフォームにアウトソーシングする必要があります。
ただし、言語モデルは、特にバックドア攻撃において、潜在的なセキュリティ上の脆弱性の影響を受けやすいことが研究で証明されています。
バックドア攻撃は、トレーニング サンプルまたはモデルの重みを汚染することで、言語モデルに標的を絞った脆弱性を導入するように設計されており、攻撃者が悪意のあるトリガーを通じてモデルの応答を操作できるようになります。
バックドア攻撃に関する既存の調査は包括的な概要を提供していますが、特に LLM をターゲットとしたバックドア攻撃についての詳細な調査は不足しています。
このギャップを埋め、この分野の最新の傾向を把握するために、このホワイトペーパーでは、微調整方法に焦点を当て、LLM に対するバックドア攻撃に関する新しい視点を示します。
具体的には、バックドア攻撃をフルパラメータ微調整、パラメータ効率の良い微調整、微調整なしの 3 つのカテゴリに体系的に分類します。 実質的なレビューからの洞察に基づいて、バックドア攻撃に関する将来の研究のための重要な問題についても議論します。
微調整を必要としない攻撃アルゴリズムをさらに調査したり、より秘密の攻撃アルゴリズムを開発したりするなどです。

要約(オリジナル)

Large Language Models (LLMs), which bridge the gap between human language understanding and complex problem-solving, achieve state-of-the-art performance on several NLP tasks, particularly in few-shot and zero-shot settings. Despite the demonstrable efficacy of LLMs, due to constraints on computational resources, users have to engage with open-source language models or outsource the entire training process to third-party platforms. However, research has demonstrated that language models are susceptible to potential security vulnerabilities, particularly in backdoor attacks. Backdoor attacks are designed to introduce targeted vulnerabilities into language models by poisoning training samples or model weights, allowing attackers to manipulate model responses through malicious triggers. While existing surveys on backdoor attacks provide a comprehensive overview, they lack an in-depth examination of backdoor attacks specifically targeting LLMs. To bridge this gap and grasp the latest trends in the field, this paper presents a novel perspective on backdoor attacks for LLMs by focusing on fine-tuning methods. Specifically, we systematically classify backdoor attacks into three categories: full-parameter fine-tuning, parameter-efficient fine-tuning, and no fine-tuning Based on insights from a substantial review, we also discuss crucial issues for future research on backdoor attacks, such as further exploring attack algorithms that do not require fine-tuning, or developing more covert attack algorithms.

arxiv情報

著者 Shuai Zhao,Meihuizi Jia,Zhongliang Guo,Leilei Gan,Xiaoyu Xu,Xiaobao Wu,Jie Fu,Yichao Feng,Fengjun Pan,Luu Anh Tuan
発行日 2024-09-12 00:27:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク