Computation Mechanism Behind LLM Position Generalization

要約

ほとんどの書かれた自然言語は、単語と文のシーケンスで構成されています。
人間と同様に、大規模な言語モデル(LLM)は、テキストの位置を処理する柔軟性を示します。
彼らは、位置の摂動を備えたテキストを理解し、最新のテクニックでトレーニング中に遭遇したテキストよりも長いテキストに一般化することができます。
これらの現象は、LLMSが位置を耐性に処理することを示唆していますが、LLMSがどのように位置の関連性を計算するかはほとんど未調査のままです。
この作業は、言語現象とLLMSの計算メカニズムを結び付けます。
LLMSが、摂動の位置における前述の耐性の特定の計算メカニズムをどのように施行するかを示します。
自己関節メカニズムの複雑な設計にもかかわらず、この研究は、LLMが注意ロジットの直感に反する解体を学ぶことを明らかにしています。
それらの値は、位置の関連性とセマンティックの重要性の算術合計の近似と0.959の線形相関を示しています。
さらに、中間特徴の一般的なパターンを特定します。これは、理論的にこの効果を可能にすることを証明します。
ランダムに初期化されたパラメーターがどのように動作するかとは異なるパターンは、モデルアーキテクチャの自然な結果ではなく、学習した動作であることを示唆しています。
これらの調査結果に基づいて、LLMSの位置の柔軟性の計算説明と基準を提供します。
この作業は、ポジションの一般化と最新のLLMSの内部メカニズムをリンクする先駆的な一歩を踏み出します。

要約(オリジナル)

Most written natural languages are composed of sequences of words and sentences. Similar to humans, large language models (LLMs) exhibit flexibility in handling textual positions – a phenomenon we term position generalization. They can understand texts with position perturbations and generalize to longer texts than those encountered during training with the latest techniques. These phenomena suggest that LLMs handle positions tolerantly, but how LLMs computationally process positional relevance remains largely unexplored. This work connects the linguistic phenomenon with LLMs’ computational mechanisms. We show how LLMs enforce certain computational mechanisms for the aforementioned tolerance in position perturbations. Despite the complex design of the self-attention mechanism, this work reveals that LLMs learn a counterintuitive disentanglement of attention logits. Their values show a 0.959 linear correlation with an approximation of the arithmetic sum of positional relevance and semantic importance. Furthermore, we identify a prevalent pattern in intermediate features, which we prove theoretically enables this effect. The pattern, which is different from how randomly initialized parameters would behave, suggests that it is a learned behavior rather than a natural result of the model architecture. Based on these findings, we provide computational explanations and criteria for LLMs’ position flexibilities. This work takes a pioneering step in linking position generalization with modern LLMs’ internal mechanisms.

arxiv情報

著者 Chi Han,Heng Ji
発行日 2025-03-17 15:47:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク