要約
大規模言語モデル (LLM)、特に ChatGPT はさまざまな分野で目覚ましい成果を上げていますが、その潜在的な人間のような心理学はまだほとんど解明されていません。
既存の研究では、LLM の仮想パーソナリティが研究されていますが、LLM を介して人間のパーソナリティを分析する可能性を探求することはほとんどありません。
このホワイト ペーパーでは、LLM が Myers Briggs Type Indicator (MBTI) テストに基づいて人間のパーソナリティを評価するための一般的な評価フレームワークを示します。
具体的には、まず MBTI の質問のオプションをランダムに並べ替えることで偏りのないプロンプトを考案し、平均的なテスト結果を採用して、より公平な回答の生成を促進します。
次に、LLM からのさまざまな主題に関する柔軟なクエリと評価を可能にするために、質問ステートメントの主題を置き換えることを提案します。
最後に、LLM がより明確な応答を生成できるように、正確性評価の方法で質問の指示を再定式化します。
提案されたフレームワークにより、LLM はさまざまなグループの人々の性格を柔軟に評価できます。
さらに、ChatGPT や InstructGPT などの最先端の LLM からの評価結果の一貫性、堅牢性、公平性を測定する 3 つの評価指標を提案します。
私たちの実験は、ChatGPT が人間の性格を評価する能力を明らかにしており、平均的な結果は、InstructGPT と比較してプロンプト バイアスに対するロバスト性が低いにもかかわらず、より一貫した公正な評価を達成できることを示しています。
要約(オリジナル)
Large Language Models (LLMs) especially ChatGPT have produced impressive results in various areas, but their potential human-like psychology is still largely unexplored. Existing works study the virtual personalities of LLMs but rarely explore the possibility of analyzing human personalities via LLMs. This paper presents a generic evaluation framework for LLMs to assess human personalities based on Myers Briggs Type Indicator (MBTI) tests. Specifically, we first devise unbiased prompts by randomly permuting options in MBTI questions and adopt the average testing result to encourage more impartial answer generation. Then, we propose to replace the subject in question statements to enable flexible queries and assessments on different subjects from LLMs. Finally, we re-formulate the question instructions in a manner of correctness evaluation to facilitate LLMs to generate clearer responses. The proposed framework enables LLMs to flexibly assess personalities of different groups of people. We further propose three evaluation metrics to measure the consistency, robustness, and fairness of assessment results from state-of-the-art LLMs including ChatGPT and InstructGPT. Our experiments reveal ChatGPT’s ability to assess human personalities, and the average results demonstrate that it can achieve more consistent and fairer assessments in spite of lower robustness against prompt biases compared with InstructGPT.
arxiv情報
著者 | Haocong Rao,Cyril Leung,Chunyan Miao |
発行日 | 2023-03-07 05:35:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google