Psychometric Predictive Power of Large Language Models

要約

言語モデルからの次の単語の確率は、人間の読書行動をうまくシミュレートすることが示されています。
これに基づいて、興味深いことに、命令調整された大規模言語モデル (LLM) は、同等の複雑さを持つ基本 LLM よりも人間の読書行動に対する心理測定的予測力 (PPP) が低いことを示します。
言い換えれば、LLM が人間の好みの応答を提供できるようにする命令チューニングは、計算心理言語学の観点からは、LLM を必ずしも人間らしくするわけではありません。
さらに、LLM を使用して人間の読書行動をシミュレートする際のプロンプトの方法論を調査し、特定の言語仮説を反映するプロンプトによって LLM がより優れた PPP を示すようになるが、それでも基本 LLM よりも劣ることを示します。
これらは、最近の命令チューニングとプロンプトが、コグニティブ モデリングにおけるベース LLM からの直接確率測定よりも優れた推定値を提供しないことを強調しています。

要約(オリジナル)

Next-word probabilities from language models have been shown to successfully simulate human reading behavior. Building on this, we show that, interestingly, instruction-tuned large language models (LLMs) yield worse psychometric predictive power (PPP) for human reading behavior than base LLMs with equivalent perplexities. In other words, instruction tuning, which helps LLMs provide human-preferred responses, does not always make them human-like from the computational psycholinguistics perspective. In addition, we explore prompting methodologies in simulating human reading behavior with LLMs, showing that prompts reflecting a particular linguistic hypothesis lead LLMs to exhibit better PPP but are still worse than base LLMs. These highlight that recent instruction tuning and prompting do not offer better estimates than direct probability measurements from base LLMs in cognitive modeling.

arxiv情報

著者 Tatsuki Kuribayashi,Yohei Oseki,Timothy Baldwin
発行日 2023-11-13 17:19:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク