A Framework for Robust Cognitive Evaluation of LLMs

要約

大規模言語モデル(LLM)における創発的な認知能力は広く観察されているが、その性質や基礎となるメカニズムはまだ十分に理解されていない。LLMの認知能力を調査するために認知科学を利用した研究が増えているが、標準的な方法論や実験パイプラインはまだ確立されていない。このギャップを解決するために、我々はCognitivEvalを開発した。CognitivEvalは、LLMの人工的な認知能力を体系的に評価するためのフレームワークであり、特に応答収集における頑健性に重点を置いている。CognitivEvalの主な特徴は以下の通りである:(i)自動的なプロンプトの並べ替え、(ii)世代とモデルの確率推定値の両方を収集するテスト。我々の実験は、これらの機能がよりロバストな実験結果につながることを実証している。CognitivEvalを使用して、認知科学における5つの古典的な実験を再現し、様々な実験タスクにわたるフレームワークの一般性を説明し、いくつかの最先端のLLMの認知プロファイルを得る。CognitivEvalは、認知科学コミュニティ内でのより広範な協力を促進するために、一般に公開される予定である。

要約(オリジナル)

Emergent cognitive abilities in large language models (LLMs) have been widely observed, but their nature and underlying mechanisms remain poorly understood. A growing body of research draws on cognitive science to investigate LLM cognition, but standard methodologies and experimen-tal pipelines have not yet been established. To address this gap we develop CognitivEval, a framework for systematically evaluating the artificial cognitive capabilities of LLMs, with a particular emphasis on robustness in response collection. The key features of CognitivEval include: (i) automatic prompt permutations, and (ii) testing that gathers both generations and model probability estimates. Our experiments demonstrate that these features lead to more robust experimental outcomes. Using CognitivEval, we replicate five classic experiments in cognitive science, illustrating the framework’s generalizability across various experimental tasks and obtaining a cognitive profile of several state of the art LLMs. CognitivEval will be released publicly to foster broader collaboration within the cognitive science community.

arxiv情報

著者 Karin de Langis,Jong Inn Park,Bin Hu,Khanh Chi Le,Andreas Schramm,Michael C. Mensink,Andrew Elfenbein,Dongyeop Kang
発行日 2025-04-03 17:35:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク