Psychometric Predictive Power of Large Language Models

要約

インストラクションチューニングは、大規模言語モデル(LLM)の応答を人間の嗜好に合わせるものである。このような人間とLLMのアライメントにおける努力にもかかわらず、興味深いことに、インストラクションチューニングが必ずしも認知モデリングの観点からLLMを人間に近づけるとは限らないことを報告する。より具体的には、インストラクションチューニングされたLLMによって推定された次単語確率は、ベースLLMによって推定された次単語確率よりも、人間の読書行動をシミュレートする上で劣っていることが多い。さらに、LLMを用いて人間の読書行動をシミュレートする際のプロンプトの方法についても検討した。その結果、特定の言語仮説を反映したプロンプトはPPPを改善するものの、小さな基本モデルによるPPPには依然として劣ることがわかった。これらの結果は、LLMにおける最近の進歩、すなわちインストラクションチューニングやプロンプティングは、認知モデリングにおいてベースLLMからの直接確率測定よりも良い推定値を提供しないことを強調している。言い換えれば、我々の実験は、LLMの時代においても、純粋な次単語確率が人間の読書行動の強力な予測因子であることを強調している。

要約(オリジナル)

Instruction tuning aligns the response of large language models (LLMs) with human preferences. Despite such efforts in human–LLM alignment, we report that, interestingly, instruction tuning does not always make LLMs human-like from a cognitive modeling perspective. More specifically, next-word probabilities estimated by instruction-tuned LLMs are often worse at simulating human reading behavior than those estimated by base LLMs. In addition, we explore prompting methodologies in simulating human reading behavior with LLMs. Our results show that prompts reflecting a particular linguistic hypothesis improve PPP but are still inferior to PPP from small base models. These findings highlight that recent advancements in LLMs, i.e., instruction tuning and prompting, do not offer better estimates than direct probability measurements from base LLMs in cognitive modeling. In other words, our experiments highlight that pure next-word probability remains a strong predictor for human reading behavior, even in the age of LLMs.

arxiv情報

著者 Tatsuki Kuribayashi,Yohei Oseki,Timothy Baldwin
発行日 2024-04-03 15:45:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク