要約
大規模な言語モデル(LLM)の安全性の配置は、敵対的に作られた入力を介して回避できますが、これらの攻撃が安全障壁をバイパスするメカニズムは、よく理解されていないままです。
以前の研究では、モデルのアクティベーションスペースの単一の拒否方向が、LLMがリクエストを拒否するかどうかを決定することを示唆しています。
この研究では、表現工学への新しいグラデーションベースのアプローチを提案し、それを使用して拒否の方向性を特定します。
以前の研究とは反対に、拒否を媒介する複数の独立した方向性や多次元の概念コーンさえも明らかにします。
さらに、直交性だけでは介入の下での独立性を意味するものではなく、線形効果と非線形効果の両方を説明する表現独立の概念を動機づけることを示しています。
このフレームワークを使用して、機械的に独立した拒否の方向性を特定します。
LLMの拒否メカニズムは、複雑な空間構造によって支配され、機能的に独立した方向を特定し、複数の異なるメカニズムが拒否行動を促進することを確認することを示します。
勾配ベースのアプローチは、これらのメカニズムを明らかにし、LLMSの理解に関する将来の作業の基盤としてさらに機能することができます。
要約(オリジナル)
The safety alignment of large language models (LLMs) can be circumvented through adversarially crafted inputs, yet the mechanisms by which these attacks bypass safety barriers remain poorly understood. Prior work suggests that a single refusal direction in the model’s activation space determines whether an LLM refuses a request. In this study, we propose a novel gradient-based approach to representation engineering and use it to identify refusal directions. Contrary to prior work, we uncover multiple independent directions and even multi-dimensional concept cones that mediate refusal. Moreover, we show that orthogonality alone does not imply independence under intervention, motivating the notion of representational independence that accounts for both linear and non-linear effects. Using this framework, we identify mechanistically independent refusal directions. We show that refusal mechanisms in LLMs are governed by complex spatial structures and identify functionally independent directions, confirming that multiple distinct mechanisms drive refusal behavior. Our gradient-based approach uncovers these mechanisms and can further serve as a foundation for future work on understanding LLMs.
arxiv情報
著者 | Tom Wollschläger,Jannes Elstner,Simon Geisler,Vincent Cohen-Addad,Stephan Günnemann,Johannes Gasteiger |
発行日 | 2025-02-24 18:52:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google