Instruction-tuning Aligns LLMs to the Human Brain

要約

インストラクション・チューニングは、大規模言語モデル(LLM)が自然言語クエリに対する人間の応答により近い出力を生成できるようにするファインチューニングの手法として広く採用されている。しかし、命令チューニングがLLMを本当に人間の言語処理方法に近づけるかどうかはまだ不明である。我々は、LLMと人間の類似性に対するインストラクション・チューニングの効果を2つの方法で調査した:(1)脳のアライメント(LLMの内部表現と人間の言語システムにおける神経活動の類似性)、(2)行動のアライメント(LLMと人間の読解タスクにおける行動の類似性)。我々は、25のバニラとインストラクションチューニングされたLLMを、人間が自然な物語や文章を読む3つのデータセットで評価した。その結果、インストラクションチューニングは一般的に脳のアライメントを平均6%向上させるが、行動のアライメントには同様の効果がないことがわかった。LLMと脳のアライメントの根底にある要因を特定するために、LLMの脳のアライメントと、モデルの大きさ、様々な問題解決能力、様々な領域にまたがる世界知識を必要とするタスクのパフォーマンスなど、様々なモデルの特性との相関を計算した。特に、脳アライメントとモデルサイズ(r = 0.95)、および世界知識を必要とするタスクのパフォーマンス(r = 0.81)の間には強い正の相関があることがわかった。この結果は、LLMをインストラクションチューニングすることで、世界知識表現と脳のアライメントの両方が改善されることを示しており、LLMに世界知識をエンコードするメカニズムが、ヒトの脳への表現アライメントも改善することを示唆している。

要約(オリジナル)

Instruction-tuning is a widely adopted method of finetuning that enables large language models (LLMs) to generate output that more closely resembles human responses to natural language queries, in many cases leading to human-level performance on diverse testbeds. However, it remains unclear whether instruction-tuning truly makes LLMs more similar to how humans process language. We investigate the effect of instruction-tuning on LLM-human similarity in two ways: (1) brain alignment, the similarity of LLM internal representations to neural activity in the human language system, and (2) behavioral alignment, the similarity of LLM and human behavior on a reading task. We assess 25 vanilla and instruction-tuned LLMs across three datasets involving humans reading naturalistic stories and sentences. We discover that instruction-tuning generally enhances brain alignment by an average of 6%, but does not have a similar effect on behavioral alignment. To identify the factors underlying LLM-brain alignment, we compute correlations between the brain alignment of LLMs and various model properties, such as model size, various problem-solving abilities, and performance on tasks requiring world knowledge spanning various domains. Notably, we find a strong positive correlation between brain alignment and model size (r = 0.95), as well as performance on tasks requiring world knowledge (r = 0.81). Our results demonstrate that instruction-tuning LLMs improves both world knowledge representations and brain alignment, suggesting that mechanisms that encode world knowledge in LLMs also improve representational alignment to the human brain.

arxiv情報

著者 Khai Loong Aw,Syrielle Montariol,Badr AlKhamissi,Martin Schrimpf,Antoine Bosselut
発行日 2023-12-01 13:31:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク