要約
大規模言語モデル (LLM) アーキテクチャは、機能的に階層的であるとよく説明されます。初期の層は構文を処理し、中間の層はセマンティクスの解析を開始し、後半の層は情報を統合します。
今回の研究では、これらのアイデアを再検討します。
この調査では、単純なテキストを LLM (例: 「教会とオルガン」) に送信し、結果として得られるアクティベーションを抽出します。
次に、各レイヤーについて、サポート ベクター マシンとリッジ回帰を適合させてテキストのラベルを予測し、特定のレイヤーが何らかの情報をエンコードしているかどうかを調べます。
小規模モデル (Llama-3.2-3b、28 層) を使用した分析は、共通の階層的観点を部分的に強化します。項目レベルのセマンティクスが初期 (層 2 ~ 7) で最も強く表現され、次に 2 項目の関係 (層 8 ~ 12)、
次に 4 項目のアナロジー (レイヤー 10 ~ 15)。
その後、項目と単純な関係の表現は、よりグローバルな情報に焦点を当てた深い層では徐々に減少します。
ただし、安定した階層ビューに反するいくつかの発見があります。まず、深い層はドキュメント全体の抽象化を表現できますが、深い層は意味のある抽象化を行わずにコンテキスト ウィンドウの初期部分からの情報も圧縮します。
第 2 に、より大きなモデル (Llama-3.3-70b-Instruct) を調べると、抽象化レベルの激しい変動が現れます。深さが増すにつれて、2 項目の関係と 4 項目の類似性の表現が最初は増加し、その後著しく減少し、その後増加します。
また一瞬。
この独特のパターンは、いくつかの実験にわたって一貫して現れます。
第三に、スケーリングのもう 1 つの新たな効果は、隣接するレイヤーのアテンション メカニズム間の調整です。
より大きなモデルを使用した複数の実験にわたって、隣接するレイヤーは、それぞれがどのような情報を専門に表現するかの間で変動します。
要約すると、抽象化階層は多くの場合、複数のレイヤーにわたって現れますが、大規模なモデルは奇妙な方法でこの構造から逸脱することもあります。
要約(オリジナル)
Large language model (LLM) architectures are often described as functionally hierarchical: Early layers process syntax, middle layers begin to parse semantics, and late layers integrate information. The present work revisits these ideas. This research submits simple texts to an LLM (e.g., ‘A church and organ’) and extracts the resulting activations. Then, for each layer, support vector machines and ridge regressions are fit to predict a text’s label and thus examine whether a given layer encodes some information. Analyses using a small model (Llama-3.2-3b; 28 layers) partly bolster the common hierarchical perspective: Item-level semantics are most strongly represented early (layers 2-7), then two-item relations (layers 8-12), and then four-item analogies (layers 10-15). Afterward, the representation of items and simple relations gradually decreases in deeper layers that focus on more global information. However, several findings run counter to a steady hierarchy view: First, although deep layers can represent document-wide abstractions, deep layers also compress information from early portions of the context window without meaningful abstraction. Second, when examining a larger model (Llama-3.3-70b-Instruct), stark fluctuations in abstraction level appear: As depth increases, two-item relations and four-item analogies initially increase in their representation, then markedly decrease, and afterward increase again momentarily. This peculiar pattern consistently emerges across several experiments. Third, another emergent effect of scaling is coordination between the attention mechanisms of adjacent layers. Across multiple experiments using the larger model, adjacent layers fluctuate between what information they each specialize in representing. In sum, an abstraction hierarchy often manifests across layers, but large models also deviate from this structure in curious ways.
arxiv情報
著者 | Paul C. Bogdan |
発行日 | 2025-01-13 14:27:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google