Probing then Editing Response Personality of Large Language Models

要約

大規模な言語モデル(LLM)は、一貫した性格特性を示す応答を生成する有望な能力を実証しています。
出力ベースの評価を通じて人格表現を分析する主要な試みにもかかわらず、そのような特性がLLMパラメーター内でどのように内部にエンコードされているかについてはほとんど知られていません。
このホワイトペーパーでは、レイヤーごとの調査フレームワークを紹介して、応答のためのエンコードパーソナリティにおけるLLMのレイヤーワイズ能力を体系的に調査します。
PersonalityEditベンチマークを介して11のオープンソースLLMで調査実験を実施し、LLMSが中間層と上層で応答するために主に性格をエンコードし、命令チューニングモデルが人格特性のわずかに明確な分離を示すことを発見しました。
さらに、各パーソナリティカテゴリのレイヤーワイズ境界として訓練されたプローブプレーンを解釈することにより、推論中にLLMSによって表現された性格を編集するための層ごとの摂動方法を提案します。
私たちの結果は、プロンプトが特定の性格を明示的に指定したとしても、私たちの方法がLLMSの応答性格をうまく変えることができることを示しています。
興味深いことに、特定の性格特性間の変換の難しさは大きく異なり、プロービング実験の表現距離と一致します。
最後に、包括的なMMLUベンチマーク評価と時間オーバーヘッド分析を実施し、提案された性格編集方法は、低トレーニングコストと許容可能な推論の遅延を維持しながら、一般的な能力の最小限の分解のみが発生することを実証します。
私たちのコードは、https://github.com/universe-sky/probing-then-editing-personalityで公開されています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated promising capabilities to generate responses that exhibit consistent personality traits. Despite the major attempts to analyze personality expression through output-based evaluations, little is known about how such traits are internally encoded within LLM parameters. In this paper, we introduce a layer-wise probing framework to systematically investigate the layer-wise capability of LLMs in encoding personality for responding. We conduct probing experiments on 11 open-source LLMs over the PersonalityEdit benchmark and find that LLMs predominantly encode personality for responding in their middle and upper layers, with instruction-tuned models demonstrating a slightly clearer separation of personality traits. Furthermore, by interpreting the trained probing hyperplane as a layer-wise boundary for each personality category, we propose a layer-wise perturbation method to edit the personality expressed by LLMs during inference. Our results show that even when the prompt explicitly specifies a particular personality, our method can still successfully alter the response personality of LLMs. Interestingly, the difficulty of converting between certain personality traits varies substantially, which aligns with the representational distances in our probing experiments. Finally, we conduct a comprehensive MMLU benchmark evaluation and time overhead analysis, demonstrating that our proposed personality editing method incurs only minimal degradation in general capabilities while maintaining low training costs and acceptable inference latency. Our code is publicly available at https://github.com/universe-sky/probing-then-editing-personality.

arxiv情報

著者 Tianjie Ju,Zhenyu Shao,Bowen Wang,Yujia Chen,Zhuosheng Zhang,Hao Fei,Mong-Li Lee,Wynne Hsu,Sufeng Duan,Gongshen Liu
発行日 2025-04-14 13:46:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク