Editing Personality for LLMs

要約

このペーパーでは、大規模言語モデル (LLM) の性格特性の編集に焦点を当てた革新的なタスクを紹介します。
このタスクは、個人の性格が表現された意見の形で現れることが多く、それによってさまざまな性格特性を示すため、指定されたトピックに関する意見関連の質問に対するモデルの応答を調整することを目的としています。
具体的には、このタスクに対処するために新しいベンチマーク データセット PersonalityEdit を構築します。
社会心理学の理論に基づいて、ベンチマークの基礎として、神経症傾向、外向性、協調性という 3 つの代表的な特性を分離します。
次に、GPT-4 を使用してデータを収集し、指定されたトピックに一致するだけでなく、対象となる性格特性を体現する応答を生成します。
私たちはさまざまなベースラインを含む包括的な実験を実施し、LLM における人格行動の表現について議論します。
私たちの興味深い調査結果は、提案されたタスクの潜在的な課題を明らかにし、いくつかの残された問題を示しています。
私たちは、私たちの取り組みが NLP コミュニティに洞察を提供できることを期待しています。
コードとデータセットは https://github.com/zjunlp/EasyEdit でリリースされます。

要約(オリジナル)

This paper introduces an innovative task focused on editing the personality traits of Large Language Models (LLMs). This task seeks to adjust the models’ responses to opinion-related questions on specified topics since an individual’s personality often manifests in the form of their expressed opinions, thereby showcasing different personality traits. Specifically, we construct a new benchmark dataset PersonalityEdit to address this task. Drawing on the theory in Social Psychology, we isolate three representative traits, namely Neuroticism, Extraversion, and Agreeableness, as the foundation for our benchmark. We then gather data using GPT-4, generating responses that not only align with a specified topic but also embody the targeted personality trait. We conduct comprehensive experiments involving various baselines and discuss the representation of personality behavior in LLMs. Our intriguing findings uncover potential challenges of the proposed task, illustrating several remaining issues. We anticipate that our work can provide the NLP community with insights. Code and datasets will be released at https://github.com/zjunlp/EasyEdit.

arxiv情報

著者 Shengyu Mao,Ningyu Zhang,Xiaohan Wang,Mengru Wang,Yunzhi Yao,Yong Jiang,Pengjun Xie,Fei Huang,Huajun Chen
発行日 2023-11-21 18:18:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG, cs.MA パーマリンク