要約
拒否は、整合した言語モデルの重要な安全行動ですが、拒否を促進する内部メカニズムは不透明のままです。
この作業では、スパース自動エンコーダーを使用して命令チューニングLLMSの拒否の機械的研究を実施し、拒否行動を因果的に媒介する潜在的な特徴を特定します。
2つのオープンソースチャットモデルに方法を適用し、拒否関連の機能に介入して、生成への影響を評価し、複数の有害なデータセットにわたる行動への影響を検証します。
これにより、活性化レベルで拒否がどのように現れるかをよく調べ、上流のストリーム潜在関係を調査し、敵対的なパームブレイクテクニックのメカニズムを理解するなどの重要な研究質問に対処することができます。
また、分類タスクにおける分散型敵対サンプルに対する線形プローブの一般化を強化する際の拒否機能の有用性を確立します。
https://github.com/wj210/refusal_saeでコードをオープンします。
要約(オリジナル)
Refusal is a key safety behavior in aligned language models, yet the internal mechanisms driving refusals remain opaque. In this work, we conduct a mechanistic study of refusal in instruction-tuned LLMs using sparse autoencoders to identify latent features that causally mediate refusal behaviors. We apply our method to two open-source chat models and intervene on refusal-related features to assess their influence on generation, validating their behavioral impact across multiple harmful datasets. This enables a fine-grained inspection of how refusal manifests at the activation level and addresses key research questions such as investigating upstream-downstream latent relationship and understanding the mechanisms of adversarial jailbreaking techniques. We also establish the usefulness of refusal features in enhancing generalization for linear probes to out-of-distribution adversarial samples in classification tasks. We open source our code in https://github.com/wj210/refusal_sae.
arxiv情報
著者 | Wei Jie Yeo,Nirmalendu Prakash,Clement Neo,Roy Ka-Wei Lee,Erik Cambria,Ranjan Satapathy |
発行日 | 2025-05-29 15:33:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google