Psychometric Predictive Power of Large Language Models

要約

命令チューニングは、大規模言語モデル (LLM) の応答を人間の好みに合わせます。
人間と LLM の調整におけるこのような努力にもかかわらず、認知モデリングの観点からは、命令チューニングによって LLM が必ずしも人間に似るようになるわけではないことがわかりました。
より具体的には、命令調整 LLM によって推定される次の単語の確率は、多くの場合、基本 LLM によって推定されるものよりも人間の読書行動をシミュレートするのに劣ります。
さらに、LLM を使用して人間の読書行動をシミュレートするためのプロンプト手法を検討します。
私たちの結果は、特定の言語仮説を反映するプロンプトは心理測定的予測能力を向上させますが、それでも小規模な基本モデルより劣ることを示しています。
これらの発見は、LLM の最近の進歩、つまり命令のチューニングやプロンプトが、コグニティブ モデリングにおける基本 LLM からの直接の確率測定よりも優れた推定値を提供しないことを強調しています。
言い換えれば、純粋な次の単語の確率は、LLM の時代であっても、人間の読書行動の強力な予測因子であり続けます。

要約(オリジナル)

Instruction tuning aligns the response of large language models (LLMs) with human preferences. Despite such efforts in human–LLM alignment, we find that instruction tuning does not always make LLMs human-like from a cognitive modeling perspective. More specifically, next-word probabilities estimated by instruction-tuned LLMs are often worse at simulating human reading behavior than those estimated by base LLMs. In addition, we explore prompting methodologies for simulating human reading behavior with LLMs. Our results show that prompts reflecting a particular linguistic hypothesis improve psychometric predictive power, but are still inferior to small base models. These findings highlight that recent advancements in LLMs, i.e., instruction tuning and prompting, do not offer better estimates than direct probability measurements from base LLMs in cognitive modeling. In other words, pure next-word probability remains a strong predictor for human reading behavior, even in the age of LLMs.

arxiv情報

著者 Tatsuki Kuribayashi,Yohei Oseki,Timothy Baldwin
発行日 2024-04-15 12:12:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク