要約
大規模言語モデル (LLM) の最近の進歩により、LLM は会話エージェントとしてさまざまな領域に適応されています。
私たちは疑問に思います。人間と同じように、性格テストをこれらのエージェントに適用して、その行動を分析できるでしょうか?
LLM の性格を評価するために設計された 8K の多肢選択の質問で構成される新しいベンチマークである TRAIT を紹介します。
TRAIT は、心理測定的に検証された 2 つの小規模な人間向けアンケート、Big Five Inventory (BFI) と Short Dark Triad (SD-3) に基づいて構築されており、ATOMIC-10X ナレッジ グラフで現実世界のさまざまなシナリオに対応できるように強化されています。
また、TRAIT は、信頼性と有効性の点で LLM の既存の性格テストを上回っており、コンテンツ有効性、内部有効性、拒否率、信頼性という 4 つの主要な指標にわたって最高スコアを達成しています。
TRAIT を使用することで、LLM の性格に関する 2 つの注目すべき洞察が明らかになります。1) LLM は、トレーニング データ (アライメント調整に使用されるデータなど) によって大きく影響される、明確で一貫した性格を示します。2) 現在のプロンプト手法の有効性は限られています。
高い精神病質や低い誠実さなどの特定の特性を引き出しており、この方向でさらなる研究が必要であることが示唆されています。
要約(オリジナル)
Recent advancements in Large Language Models (LLMs) have led to their adaptation in various domains as conversational agents. We wonder: can personality tests be applied to these agents to analyze their behavior, similar to humans? We introduce TRAIT, a new benchmark consisting of 8K multi-choice questions designed to assess the personality of LLMs. TRAIT is built on two psychometrically validated small human questionnaires, Big Five Inventory (BFI) and Short Dark Triad (SD-3), enhanced with the ATOMIC-10X knowledge graph to a variety of real-world scenarios. TRAIT also outperforms existing personality tests for LLMs in terms of reliability and validity, achieving the highest scores across four key metrics: Content Validity, Internal Validity, Refusal Rate, and Reliability. Using TRAIT, we reveal two notable insights into personalities of LLMs: 1) LLMs exhibit distinct and consistent personality, which is highly influenced by their training data (e.g., data used for alignment tuning), and 2) current prompting techniques have limited effectiveness in eliciting certain traits, such as high psychopathy or low conscientiousness, suggesting the need for further research in this direction.
arxiv情報
著者 | Seungbeen Lee,Seungwon Lim,Seungju Han,Giyeong Oh,Hyungjoo Chae,Jiwan Chung,Minju Kim,Beong-woo Kwak,Yeonsoo Lee,Dongha Lee,Jinyoung Yeo,Youngjae Yu |
発行日 | 2024-10-23 14:01:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google