Evidence from fMRI Supports a Two-Phase Abstraction Process in Language Models

要約

研究では、大規模な言語モデルから抽出された中間隠れ状態が、自然言語刺激に対する測定された脳の反応を予測できることが繰り返し実証されています。
しかし、この高い予測パフォーマンスを可能にする表現特性についてはほとんどわかっていません。
この独特で汎用性の高い転送タスクに最も適しているのは、出力層ではなく中間層であるのはなぜでしょうか?
この研究では、fMRI の言語エンコード モデルからの証拠が、LLM 内の 2 段階の抽象化プロセスの存在を裏付けることを示します。
我々は、多様な学習手法を使用して、この抽象化プロセスが言語モデルのトレーニング中に自然に発生すること、およびこの抽象化プロセスの最初の「構成」フェーズがトレーニングの継続につれてより少ない層に圧縮されることを示します。
最後に、レイヤーごとのエンコーディングのパフォーマンスと LLM の表現の固有の次元との間に強い対応があることを示します。
我々は、この対応関係が主に LLM の次の単語の予測特性ではなく、LLM の固有の構成性に由来するという最初の証拠を示します。

要約(オリジナル)

Research has repeatedly demonstrated that intermediate hidden states extracted from large language models are able to predict measured brain response to natural language stimuli. Yet, very little is known about the representation properties that enable this high prediction performance. Why is it the intermediate layers, and not the output layers, that are most capable for this unique and highly general transfer task? In this work, we show that evidence from language encoding models in fMRI supports the existence of a two-phase abstraction process within LLMs. We use manifold learning methods to show that this abstraction process naturally arises over the course of training a language model and that the first ‘composition’ phase of this abstraction process is compressed into fewer layers as training continues. Finally, we demonstrate a strong correspondence between layerwise encoding performance and the intrinsic dimensionality of representations from LLMs. We give initial evidence that this correspondence primarily derives from the inherent compositionality of LLMs and not their next-word prediction properties.

arxiv情報

著者 Emily Cheng,Richard J. Antonello
発行日 2024-09-09 16:33:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク