Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications

要約

大規模言語モデル (LLM) は、ジェイルブレイクや、さらには悪意のない微調整に対して脆弱であることからわかるように、安全メカニズムに本質的な脆弱性を示しています。
この研究では、枝刈りや低ランクの変更を活用することで、安全調整の脆弱性を調査しています。
私たちは、安全ガードレールにとって不可欠であり、ニューロン レベルとランク レベルの両方でユーティリティ関連領域から切り離された重要な領域を特定する方法を開発します。
驚くべきことに、見つかった孤立領域はまばらで、パラメータ レベルで約 $3\%$、ランク レベルで $2.5\%$ で構成されています。
これらの領域を削除すると、実用性に大きな影響を与えることなく安全性が損なわれ、モデルの安全機構が本質的に脆弱であることが裏付けられます。
さらに、安全性が重要な領域への変更が制限されている場合でも、LLM は低コストの微調整攻撃に対して脆弱なままであることを示します。
これらの発見は、LLM におけるより堅牢な安全戦略が緊急に必要であることを強調しています。

要約(オリジナル)

Large language models (LLMs) show inherent brittleness in their safety mechanisms, as evidenced by their susceptibility to jailbreaking and even non-malicious fine-tuning. This study explores this brittleness of safety alignment by leveraging pruning and low-rank modifications. We develop methods to identify critical regions that are vital for safety guardrails, and that are disentangled from utility-relevant regions at both the neuron and rank levels. Surprisingly, the isolated regions we find are sparse, comprising about $3\%$ at the parameter level and $2.5\%$ at the rank level. Removing these regions compromises safety without significantly impacting utility, corroborating the inherent brittleness of the model’s safety mechanisms. Moreover, we show that LLMs remain vulnerable to low-cost fine-tuning attacks even when modifications to the safety-critical regions are restricted. These findings underscore the urgent need for more robust safety strategies in LLMs.

arxiv情報

著者 Boyi Wei,Kaixuan Huang,Yangsibo Huang,Tinghao Xie,Xiangyu Qi,Mengzhou Xia,Prateek Mittal,Mengdi Wang,Peter Henderson
発行日 2024-06-27 17:23:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク