Think or Remember? Detecting and Directing LLMs Towards Memorization or Generalization

要約

この論文では、人間の脳で観察される機能の特殊化にヒントを得た、大規模言語モデル (LLM) における記憶と一般化の基本的なメカニズムを探ります。
私たちの調査は、特別に設計されたデータセットと実験規模の LLM を活用したケーススタディとして機能し、これらの動作を理解するための基礎を築きます。
具体的には、まず、設計されたデータセットを使用したトレーニングによって LLM が記憶と一般化の両方を行えるようにすることを目的としています。次に、(a) LLM が記憶と一般化に関してニューロンレベルの空間分化を示すかどうかを調べ、(b) モデルの内部表現を使用してこれらの動作を予測します。
(c) 推論時の介入を通じて行動を制御します。
私たちの発見は、記憶と一般化のニューロンごとの分化がLLMで観察可能であり、標的を絞った介入がそれらの行動をうまく方向付けることができることを明らかにしました。

要約(オリジナル)

In this paper, we explore the foundational mechanisms of memorization and generalization in Large Language Models (LLMs), inspired by the functional specialization observed in the human brain. Our investigation serves as a case study leveraging specially designed datasets and experimental-scale LLMs to lay the groundwork for understanding these behaviors. Specifically, we aim to first enable LLMs to exhibit both memorization and generalization by training with the designed dataset, then (a) examine whether LLMs exhibit neuron-level spatial differentiation for memorization and generalization, (b) predict these behaviors using model internal representations, and (c) steer the behaviors through inference-time interventions. Our findings reveal that neuron-wise differentiation of memorization and generalization is observable in LLMs, and targeted interventions can successfully direct their behavior.

arxiv情報

著者 Yi-Fu Fu,Yu-Chieh Tu,Tzu-Ling Cheng,Cheng-Yu Lin,Yi-Ting Yang,Heng-Yi Liu,Keng-Te Liao,Da-Cheng Juan,Shou-De Lin
発行日 2024-12-24 15:28:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク