Refusal in Language Models Is Mediated by a Single Direction

要約

会話型の大規模言語モデルは、指示への従うことと安全性の両方を考慮して微調整されており、その結果、無害な要求には従うものの、有害な要求は拒否するモデルが生成されます。
この拒否動作はチャット モデル全体に​​広まっていますが、その根本的なメカニズムはまだよく理解されていません。
この研究では、最大 72B パラメータのサイズの 13 の一般的なオープンソース チャット モデルにわたって、拒否が 1 次元の部分空間によって媒介されることを示します。
具体的には、モデルごとに、モデルの残りのストリームのアクティベーションからこの方向を消去すると有害な命令が拒否されるのを防ぎ、この方向を追加すると無害な命令でも拒否が引き起こされるような単一の方向を見つけます。
この洞察を活用して、他の機能への影響を最小限に抑えながら拒否を外科的に無効にする新しいホワイトボックス脱獄方法を提案します。
最後に、敵対的な接尾辞が拒否仲介方向の伝播をどのように抑制するかを機械的に分析します。
私たちの調査結果は、現在の安全性の微調整方法が脆弱であることを強調しています。
より広範には、私たちの研究は、モデルの内部の理解をどのように活用して、モデルの動作を制御するための実用的な方法を開発できるかを示しています。

要約(オリジナル)

Conversational large language models are fine-tuned for both instruction-following and safety, resulting in models that obey benign requests but refuse harmful ones. While this refusal behavior is widespread across chat models, its underlying mechanisms remain poorly understood. In this work, we show that refusal is mediated by a one-dimensional subspace, across 13 popular open-source chat models up to 72B parameters in size. Specifically, for each model, we find a single direction such that erasing this direction from the model’s residual stream activations prevents it from refusing harmful instructions, while adding this direction elicits refusal on even harmless instructions. Leveraging this insight, we propose a novel white-box jailbreak method that surgically disables refusal with minimal effect on other capabilities. Finally, we mechanistically analyze how adversarial suffixes suppress propagation of the refusal-mediating direction. Our findings underscore the brittleness of current safety fine-tuning methods. More broadly, our work showcases how an understanding of model internals can be leveraged to develop practical methods for controlling model behavior.

arxiv情報

著者 Andy Arditi,Oscar Obeso,Aaquib Syed,Daniel Paleka,Nina Rimsky,Wes Gurnee,Neel Nanda
発行日 2024-06-17 16:36:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク