Pruning for Protection: Increasing Jailbreak Resistance in Aligned LLMs Without Fine-Tuning

要約

大規模言語モデル (LLM) は、これらのモデルを誘導して有害で違法なコンテンツを生成させる一種の攻撃である「脱獄」プロンプトに対して脆弱です。
この論文では、LLM パラメータを最大 20% プルーニングすると、追加のトレーニングや標準ベンチマークでのパフォーマンスを犠牲にすることなく、そのような攻撃に対する耐性が著しく向上することを示します。
興味深いことに、枝刈り後に観察された安全性の向上は、モデルの初期安全トレーニング レベルと相関していることを発見しました。これは、枝刈りの効果がより一般的である可能性があり、安全性を超えた他の LLM 動作にも当てはまる可能性があることを示唆しています。
さらに、10 種類の脱獄プロンプトに挿入された 5 つのカテゴリにわたる 225 の有害なタスクからなる厳選されたデータセットを紹介します。これは、プルーニングが LLM の脱獄プロンプト内のタスク関連トークンに注意を集中させるのに役立つことを示しています。
最後に、私たちの実験では、LLaMA-2 Chat、Vicuna、Mistral Instruct などの著名なチャット モデルがジェイルブレイク攻撃に対して高い感受性を示し、一部のカテゴリではほぼ 70 ~ 100% の成功率を達成していることが明らかになりました。
これらの洞察は、LLM の安全性、信頼性、および潜在的に他の望ましい動作を改善するための一般化可能なアプローチとしてプルーニングの可能性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) are vulnerable to `Jailbreaking’ prompts, a type of attack that can coax these models into generating harmful and illegal content. In this paper, we show that pruning up to 20% of LLM parameters markedly increases their resistance to such attacks without additional training and without sacrificing their performance in standard benchmarks. Intriguingly, we discovered that the enhanced safety observed post-pruning correlates to the initial safety training level of the model, hinting that the effect of pruning could be more general and may hold for other LLM behaviors beyond safety. Additionally, we introduce a curated dataset of 225 harmful tasks across five categories, inserted into ten different Jailbreaking prompts, showing that pruning aids LLMs in concentrating attention on task-relevant tokens in jailbreaking prompts. Lastly, our experiments reveal that the prominent chat models, such as LLaMA-2 Chat, Vicuna, and Mistral Instruct exhibit high susceptibility to jailbreaking attacks, with some categories achieving nearly 70-100% success rate. These insights underline the potential of pruning as a generalizable approach for improving LLM safety, reliability, and potentially other desired behaviors.

arxiv情報

著者 Adib Hasan,Ileana Rugina,Alex Wang
発行日 2024-01-19 18:05:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク