From Text to Emoji: How PEFT-Driven Personality Manipulation Unleashes the Emoji Potential in LLMs

要約

LLM との人間のようなやり取りに対する需要が高まるにつれ、LLM の性格特性を操作することへの関心も高まり、重要な研究分野として浮上しています。
プロンプトベースのインコンテキスト ナレッジ編集 (IKE) や勾配ベースのモデル エディター ネットワーク (MEND) などの手法が検討されていますが、不規則性と変動性が見られます。
IKE はプロンプトに依存するため、ばらつきと敏感さが生じますが、MEND は一貫性のない意味不明な出力を生成します。
これに対処するために、私たちは Opinion QA Based Parameter-Efficient Fine-Tuning (PEFT)、具体的には Quantized Low-Rank Adaptation (QLORA) を採用して、ビッグ 5 の性格特性であるオープンさ、誠実さ、外向性、協調性、神経症傾向を操作しました。
PEFT の後、PEFT データには絵文字が存在しないにもかかわらず、Mistral-7B-Instruct や Llama-2-7B-chat などのモデルが絵文字を生成し始めました。
たとえば、Llama-2-7B-chat は外向性関連のテスト インスタンスの 99.5% で絵文字を生成しましたが、Mistral-8B-Instruct はオープンネス関連のテスト インスタンスの 92.5% で絵文字を生成しました。
説明可能性分析により、LLM はこれらの特性を表現するために意図的に絵文字を使用していることが示されました。
この論文では、多数の新しい貢献を提供します。
まず、PEFT 主導の性格操作のための Opinion QA データセットを導入します。
2 つ目は、LLM の性格特性をベンチマークするための指標モデルを開発することです。
第三に、人格操作においてPEFTがIKEよりも優れていることを実証する。
そして最後に、機械的解釈可能性やコンテキスト学習による説明可能性手法などの説明可能性手法を通じて、絵文字の使用を分析および検証します。

要約(オリジナル)

As the demand for human-like interactions with LLMs continues to grow, so does the interest in manipulating their personality traits, which has emerged as a key area of research. Methods like prompt-based In-Context Knowledge Editing (IKE) and gradient-based Model Editor Networks (MEND) have been explored but show irregularity and variability. IKE depends on the prompt, leading to variability and sensitivity, while MEND yields inconsistent and gibberish outputs. To address this, we employed Opinion QA Based Parameter-Efficient Fine-Tuning (PEFT), specifically Quantized Low-Rank Adaptation (QLORA), to manipulate the Big Five personality traits: Openness, Conscientiousness, Extraversion, Agreeableness, and Neuroticism. After PEFT, models such as Mistral-7B-Instruct and Llama-2-7B-chat began generating emojis, despite their absence in the PEFT data. For instance, Llama-2-7B-chat generated emojis in 99.5% of extraversion-related test instances, while Mistral-8B-Instruct did so in 92.5% of openness-related test instances. Explainability analysis indicated that the LLMs used emojis intentionally to express these traits. This paper provides a number of novel contributions. First, introducing an Opinion QA dataset for PEFT-driven personality manipulation; second, developing metric models to benchmark LLM personality traits; third, demonstrating PEFT’s superiority over IKE in personality manipulation; and finally, analyzing and validating emoji usage through explainability methods such as mechanistic interpretability and in-context learning explainability methods.

arxiv情報

著者 Navya Jain,Zekun Wu,Cristian Munoz,Airlie Hilliard,Adriano Koshiyama,Emre Kazim,Philip Treleaven
発行日 2024-09-16 12:55:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク