Revisiting the Reliability of Psychological Scales on Large Language Models

要約

最近の研究は、大規模言語モデル (LLM) のパフォーマンスの評価を超えて、心理学的観点からその特性を調査することにまで及び、その行動特性を理解する必要性が認められています。
この文脈では、LLM に対する性格テストの管理が注目すべき分野として浮上しています。
ただし、最初は人間のために考案された心理スケールを LLM に採用することが適切かどうかは、現在も議論が続いています。
私たちの研究は、LLM が一貫した性格特性を示すかどうかを明確に調査し、LLM に性格評価を適用する信頼性を判断することを目的としています。
2,500 設定での応答を分析すると、gpt-3.5-turbo は Big Five インベントリに対する応答に一貫性を示し、高い信頼性を示していることがわかります。
さらに、私たちの研究は、多様な個性をエミュレートし、さまざまなグループを代表する gpt-3.5-turbo の可能性を探ります。これは、コスト削減のために人間の参加者を LLM に置き換えるために社会科学でますます求められている機能です。
私たちの調査結果は、LLM が特定の即時指示によってさまざまな人格を表現する可能性を持っていることを明らかにしています。
LLM のパーソナライゼーションに光を当てることで、私たちの研究は、この分野における将来の探求への道を開くことを目指しています。
実験結果と対応するコードは、https://github.com/CUHK-ARISE/LLMPersonality 経由でオープンにアクセスできるようにしました。

要約(オリジナル)

Recent research has extended beyond assessing the performance of Large Language Models (LLMs) to examining their characteristics from a psychological standpoint, acknowledging the necessity of understanding their behavioral characteristics. The administration of personality tests to LLMs has emerged as a noteworthy area in this context. However, the suitability of employing psychological scales, initially devised for humans, on LLMs is a matter of ongoing debate. Our study aims to determine the reliability of applying personality assessments to LLMs, explicitly investigating whether LLMs demonstrate consistent personality traits. Analyzing responses under 2,500 settings reveals that gpt-3.5-turbo shows consistency in responses to the Big Five Inventory, indicating a high degree of reliability. Furthermore, our research explores the potential of gpt-3.5-turbo to emulate diverse personalities and represent various groups, which is a capability increasingly sought after in social sciences for substituting human participants with LLMs to reduce costs. Our findings reveal that LLMs have the potential to represent different personalities with specific prompt instructions. By shedding light on the personalization of LLMs, our study endeavors to pave the way for future explorations in this field. We have made our experimental results and the corresponding code openly accessible via https://github.com/CUHK-ARISE/LLMPersonality.

arxiv情報

著者 Jen-tse Huang,Wenxuan Wang,Man Ho Lam,Eric John Li,Wenxiang Jiao,Michael R. Lyu
発行日 2023-12-28 13:21:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク