Refusal Behavior in Large Language Models: A Nonlinear Perspective

要約

大規模言語モデル (LLM) での拒否行動により、有害、非倫理的、または不適切なプロンプトへの応答を拒否できるようになり、倫理基準との整合性が確保されます。
このペーパーでは、3 つのアーキテクチャ ファミリの 6 つの LLM にわたる拒否動作を調査します。
私たちは、PCA、t-SNE、UMAP などの次元削減技術を使用して、線形現象としての拒否の仮定に挑戦します。
私たちの結果は、拒否メカニズムがモデルのアーキテクチャと層によって異なる非線形の多次元特性を示すことを明らかにしました。
これらの調査結果は、アライメント研究を改善し、より安全な AI 導入戦略を知らせるための非線形解釈可能性の必要性を浮き彫りにしています。

要約(オリジナル)

Refusal behavior in large language models (LLMs) enables them to decline responding to harmful, unethical, or inappropriate prompts, ensuring alignment with ethical standards. This paper investigates refusal behavior across six LLMs from three architectural families. We challenge the assumption of refusal as a linear phenomenon by employing dimensionality reduction techniques, including PCA, t-SNE, and UMAP. Our results reveal that refusal mechanisms exhibit nonlinear, multidimensional characteristics that vary by model architecture and layer. These findings highlight the need for nonlinear interpretability to improve alignment research and inform safer AI deployment strategies.

arxiv情報

著者 Fabian Hildebrandt,Andreas Maier,Patrick Krauss,Achim Schilling
発行日 2025-01-14 14:23:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク