要約
この作業では、現実的な人格特性をLLMに埋め込むという課題に取り組みます。
以前のアプローチは、主に、リアリズムと妥当性の問題に苦しんでいる、望ましい人格特性に関連する行動を説明する迅速な方法に焦点を当ててきました。
これらの制限に対処するために、人間が言語で性格を表現する方法のモデルを接地するために設計された100,000の対話を含む大規模なデータセットであるBig5-chatを紹介します。
このデータセットを活用して、トレーニングベースの方法として、監督された微調整と直接優先嗜好の最適化を、LLMSをより自然に人間の性格パターンとより自然に整列させることを探ります。
私たちの方法は、BFIやIPIP-Neoなどの人格評価を促すよりも優れており、特性相関は人間のデータに密接に一致しています。
さらに、我々の実験は、より高い良心性、より高い同意性、より低い外向性、および低い神経症を示すように訓練されたモデルが推論タスクのパフォーマンスを改善し、これらの特性が人間の認知パフォーマンスにどのように影響するかについての心理的な発見と協力することを明らかにしています。
私たちの知る限り、この作品は、トレーニングベースの方法が実際の人間の行動から学ぶことでLLMの人格をどのように形成できるかを示す最初の包括的な研究です。
要約(オリジナル)
In this work, we tackle the challenge of embedding realistic human personality traits into LLMs. Previous approaches have primarily focused on prompt-based methods that describe the behavior associated with the desired personality traits, suffering from realism and validity issues. To address these limitations, we introduce BIG5-CHAT, a large-scale dataset containing 100,000 dialogues designed to ground models in how humans express their personality in language. Leveraging this dataset, we explore Supervised Fine-Tuning and Direct Preference Optimization as training-based methods to align LLMs more naturally with human personality patterns. Our methods outperform prompting on personality assessments such as BFI and IPIP-NEO, with trait correlations more closely matching human data. Furthermore, our experiments reveal that models trained to exhibit higher conscientiousness, higher agreeableness, lower extraversion, and lower neuroticism display better performance on reasoning tasks, aligning with psychological findings on how these traits impact human cognitive performance. To our knowledge, this work is the first comprehensive study to demonstrate how training-based methods can shape LLM personalities through learning from real human behaviors.
arxiv情報
著者 | Wenkai Li,Jiarui Liu,Andy Liu,Xuhui Zhou,Mona Diab,Maarten Sap |
発行日 | 2025-02-17 18:05:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google