Investigating the Applicability of Self-Assessment Tests for Personality Measurement of Large Language Models

要約

大規模言語モデル (LLM) の機能が進化するにつれて、最近のさまざまな研究では、人間の行動を研究するために作成された心理学的ツールを使用して、LLM の行動を定量化することが試みられています。
そのような例の 1 つは、性格自己評価テストを使用した LLM の「性格」の測定です。
この論文では、人間の行動を研究するために作成された性格自己評価テストを使用した、LLM の性格測定に関する 3 つの研究を取り上げます。
これら 3 つの異なる論文で使用されているプロンプトを使用して、同じ LLM の性格を測定します。
3 つのプロンプトはすべて、非常に異なる性格スコアをもたらすことがわかりました。
この簡単なテストにより、LLM の性格自己評価スコアがプロンプターの主観的な選択に依存することが明らかになります。
このような質問には正解がないため、LLM の性格スコアの正確な値はわかりません。一方のプロンプトが他方のプロンプトより多かれ少なかれ正しいかどうかを主張する方法はありません。
次に、LLM の性格測定にオプション順序対称性の特性を導入します。
自己評価テストのほとんどは多肢選択問題 (MCQ) 形式で存在するため、スコアはプロンプト テンプレートだけでなく、選択肢が提示される順序に対しても堅牢でなければならないと主張します。
このテストでは、当然のことながら、自己評価テストの回答が選択肢の順序に対して堅牢ではないことが明らかになります。
ChatGPT および Llama2 モデルで行われたこれらの単純なテストは、人間向けに作成された自己評価性格テストが LLM での性格の測定には適切ではないことを示しています。

要約(オリジナル)

As large language models (LLM) evolve in their capabilities, various recent studies have tried to quantify their behavior using psychological tools created to study human behavior. One such example is the measurement of ‘personality’ of LLMs using personality self-assessment tests. In this paper, we take three such studies on personality measurement of LLMs that use personality self-assessment tests created to study human behavior. We use the prompts used in these three different papers to measure the personality of the same LLM. We find that all three prompts lead very different personality scores. This simple test reveals that personality self-assessment scores in LLMs depend on the subjective choice of the prompter. Since we don’t know the ground truth value of personality scores for LLMs as there is no correct answer to such questions, there’s no way of claiming if one prompt is more or less correct than the other. We then introduce the property of option order symmetry for personality measurement of LLMs. Since most of the self-assessment tests exist in the form of multiple choice question (MCQ) questions, we argue that the scores should also be robust to not just the prompt template but also the order in which the options are presented. This test unsurprisingly reveals that the answers to the self-assessment tests are not robust to the order of the options. These simple tests, done on ChatGPT and Llama2 models show that self-assessment personality tests created for humans are not appropriate for measuring personality in LLMs.

arxiv情報

著者 Akshat Gupta,Xiaoyang Song,Gopala Anumanchipalli
発行日 2023-09-15 05:19:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク