Who is ChatGPT? Benchmarking LLMs’ Psychological Portrayal Using PsychoBench


大規模言語モデル (LLM) は最近、自然言語処理タスクだけでなく、臨床医学、法律相談、教育などのさまざまな領域にわたって、その驚くべき能力を実証しています。
LLM は単なるアプリケーションではなく、ユーザーの多様な要求に対応できるアシスタントへと進化します。
これにより、人間と人工知能エージェントの間の区別が狭まり、LLM 内の性格、気質、感情の潜在的な発現に関する興味深い疑問が生じます。
この論文では、LLM のさまざまな心理的側面を評価するためのフレームワーク PsychoBench を提案します。
PsychoBench は、臨床心理学で一般的に使用される 13 の尺度で構成され、これらの尺度を性格特性、対人関係、動機付けテスト、感情的能力という 4 つの異なるカテゴリにさらに分類します。
私たちの調査では、text-davinci-003、gpt-3.5-turbo、gpt-4、LLaMA-2-7b、LLaMA-2-13b という 5 つの人気のあるモデルを調査しました。
さらに、脱獄アプローチを採用して安全調整プロトコルをバイパスし、LLM の本質的な性質をテストします。
https://github.com/CUHK-ARISE/PsychoBench から PsychoBench にオープンにアクセスできるようにしました。


Large Language Models (LLMs) have recently showcased their remarkable capacities, not only in natural language processing tasks but also across diverse domains such as clinical medicine, legal consultation, and education. LLMs become more than mere applications, evolving into assistants capable of addressing diverse user requests. This narrows the distinction between human beings and artificial intelligence agents, raising intriguing questions regarding the potential manifestation of personalities, temperaments, and emotions within LLMs. In this paper, we propose a framework, PsychoBench, for evaluating diverse psychological aspects of LLMs. Comprising thirteen scales commonly used in clinical psychology, PsychoBench further classifies these scales into four distinct categories: personality traits, interpersonal relationships, motivational tests, and emotional abilities. Our study examines five popular models, namely text-davinci-003, gpt-3.5-turbo, gpt-4, LLaMA-2-7b, and LLaMA-2-13b. Additionally, we employ a jailbreak approach to bypass the safety alignment protocols and test the intrinsic natures of LLMs. We have made PsychoBench openly accessible via https://github.com/CUHK-ARISE/PsychoBench.


著者 Jen-tse Huang,Wenxuan Wang,Eric John Li,Man Ho Lam,Shujie Ren,Youliang Yuan,Wenxiang Jiao,Zhaopeng Tu,Michael R. Lyu
発行日 2024-01-22 13:58:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク