Self-Assessment Tests are Unreliable Measures of LLM Personality

要約

大規模言語モデル(LLM)の能力が進化するにつれ、最近のさまざまな研究では、人間の行動を研究するために作られた心理学的ツールを使って、その行動を定量化しようとしている。その一例が、人間の性格を測定するために開発された自己評価性格テストを用いたLLMの「性格」の測定である。しかし、これらのテストのLLMへの適用性を検証した研究はほとんどない。本稿では、2つの簡単な実験を用いて、自己診断型性格検査から得られるLLMの性格スコアの信頼性を分析する。まず、プロンプト感受性の特性を導入する。ここでは、LLMに対する自己評価テストの3つの直感的な実施方法を表す3つの意味的に等価なプロンプトを用いて、同じLLMの性格を測定する。その結果、3つのプロンプトはすべて性格スコアに大きな違いをもたらし、その違いは大多数のシナリオにおいてすべての特性で統計的に有意であることがわかった。次に、LLMのパーソナリティ測定における選択肢の次数対称性の特性を紹介する。ほとんどの自己評価テストは多肢選択問題(MCQ)の形式で存在するため、プロンプトのテンプレートだけでなく、選択肢が提示される順序に対しても得点が頑健であるべきであると主張する。このテストでは、自己評価テストのスコアが選択肢の順序にロバストではないことが明らかになりました。ChatGPTとサイズの異なる3つのLlama2モデルで行われたこれらの簡単なテストは、人間用に作成された自己評価性格テストがLLMの性格の信頼できない尺度であることを示している。

要約(オリジナル)

As large language models (LLM) evolve in their capabilities, various recent studies have tried to quantify their behavior using psychological tools created to study human behavior. One such example is the measurement of ‘personality’ of LLMs using self-assessment personality tests developed to measure human personality. Yet almost none of these works verify the applicability of these tests on LLMs. In this paper, we analyze the reliability of LLM personality scores obtained from self-assessment personality tests using two simple experiments. We first introduce the property of prompt sensitivity, where three semantically equivalent prompts representing three intuitive ways of administering self-assessment tests on LLMs are used to measure the personality of the same LLM. We find that all three prompts lead to very different personality scores, a difference that is statistically significant for all traits in a large majority of scenarios. We then introduce the property of option-order symmetry for personality measurement of LLMs. Since most of the self-assessment tests exist in the form of multiple choice question (MCQ) questions, we argue that the scores should also be robust to not just the prompt template but also the order in which the options are presented. This test unsurprisingly reveals that the self-assessment test scores are not robust to the order of the options. These simple tests, done on ChatGPT and three Llama2 models of different sizes, show that self-assessment personality tests created for humans are unreliable measures of personality in LLMs.

arxiv情報

著者 Akshat Gupta,Xiaoyang Song,Gopala Anumanchipalli
発行日 2024-01-02 23:00:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク