CPsyExam: A Chinese Benchmark for Evaluating Psychology using Examinations

要約

この論文では、中国語試験から得られた質問から構築された新しい心理ベンチマーク CPsyExam を紹介します。
CPsyExam は、心理学の知識を現実世界のシナリオに適用する重要性を認識し、心理学の知識と事例分析を別々に優先するように設計されています。
22,000 の質問のプールから、4K を利用して、バランスのとれた主題をカバーし、多様なケース分析手法を組み込んだベンチマークを作成します。さらに、オープン言語モデルから、オープン言語モデル、
API ベースのモデルをソースとしています。
私たちの実験と分析は、CPsyExam が LLM 内の心理学の理解を高める効果的なベンチマークとして機能し、さまざまな粒度で LLM を比較できることを示しています。

要約(オリジナル)

In this paper, we introduce a novel psychological benchmark, CPsyExam, constructed from questions sourced from Chinese language examinations. CPsyExam is designed to prioritize psychological knowledge and case analysis separately, recognizing the significance of applying psychological knowledge to real-world scenarios. From the pool of 22k questions, we utilize 4k to create the benchmark that offers balanced coverage of subjects and incorporates a diverse range of case analysis techniques.Furthermore, we evaluate a range of existing large language models~(LLMs), spanning from open-sourced to API-based models. Our experiments and analysis demonstrate that CPsyExam serves as an effective benchmark for enhancing the understanding of psychology within LLMs and enables the comparison of LLMs across various granularities.

arxiv情報

著者 Jiahao Zhao,Jingwei Zhu,Minghuan Tan,Min Yang,Renhao Li,Di Yang,Chenhao Zhang,Guancheng Ye,Chengming Li,Xiping Hu,Derek F. Wong
発行日 2024-12-10 14:44:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク