Language models emulate certain cognitive profiles: An investigation of how predictability measures interact with individual differences

要約

これまで、読書における不意打ち効果やエントロピー効果に関する研究の多くは、個人差を無視した集団レベルで行われてきた。本研究では、言語使用者の認知能力の情報を取り入れることで、処理努力の指標として、人間の読書時間のデータを用いて、様々な言語モデル(LM)から推定される不意打ちとエントロピーの予測力を再検討する。そのために、様々な心理テストを受けた人の読書データを用いて、生成的LMから推定される不意打ちとエントロピーの予測力を評価する。具体的には、認知スコアに関連した驚きとエントロピーの変調が、読書時間の予測精度を高めるかどうかを調べ、また、LMが認知能力の高いグループと低いグループの読書時間の予測に系統的なバイアスを示すかどうかを調べ、あるLMがどのような心理言語学的対象者をエミュレートしているかを明らかにする。その結果、ほとんどの場合、認知能力を取り入れることで、読書時間に対するサプライズとエントロピーの予測力が高まること、一般的に、心理測定テストの成績が高いほど、予測可能性効果に対する感度が低くなることがわかった。最後に、我々の結果は、分析されたLMが言語的知能の低い読者をエミュレートしていることを示唆しており、あるターゲットグループ(すなわち、言語的知能の高い個人)にとって、これらのLMは予測可能性推定値の精度が低いことを示唆している。

要約(オリジナル)

To date, most investigations on surprisal and entropy effects in reading have been conducted on the group level, disregarding individual differences. In this work, we revisit the predictive power of surprisal and entropy measures estimated from a range of language models (LMs) on data of human reading times as a measure of processing effort by incorporating information of language users’ cognitive capacities. To do so, we assess the predictive power of surprisal and entropy estimated from generative LMs on reading data obtained from individuals who also completed a wide range of psychometric tests. Specifically, we investigate if modulating surprisal and entropy relative to cognitive scores increases prediction accuracy of reading times, and we examine whether LMs exhibit systematic biases in the prediction of reading times for cognitively high- or low-performing groups, revealing what type of psycholinguistic subject a given LM emulates. Our study finds that in most cases, incorporating cognitive capacities increases predictive power of surprisal and entropy on reading times, and that generally, high performance in the psychometric tests is associated with lower sensitivity to predictability effects. Finally, our results suggest that the analyzed LMs emulate readers with lower verbal intelligence, suggesting that for a given target group (i.e., individuals with high verbal intelligence), these LMs provide less accurate predictability estimates.

arxiv情報

著者 Patrick Haller,Lena S. Bolliger,Lena A. Jäger
発行日 2024-08-02 11:49:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク