The Remarkable Robustness of LLMs: Stages of Inference?

要約

推論中に隣接する層を削除および交換することにより、構造的介入に対する大規模な言語モデル(LLM)の堅牢性を調査します。
驚くべきことに、モデルは、微調整なしに、元のTOP-1予測精度の72〜95%を保持しています。
パフォーマンスの劣化は層全体で均一ではないことがわかります。初期層と最終層への介入は最も劣化を引き起こしますが、モデルは中間層を落とすのに非常に堅牢です。
この局所的な感度のパターンは、多様なモデルファミリとサイズにわたって観察される4つの推論の仮説を動機づけます。(1)生のトークン埋め込みを高レベルの表現に持ち上げるためにローカルコンテキストが統合されていることを掘り下げます。
(2)タスクおよびエンティティ固有の機能が繰り返し洗練されている機能エンジニアリング。
(3)隠された状態がもっともらしい次のトークン予測に集約されている予測アンサンブル。
(4)出力分布を確定するために無関係な特徴が抑制される残留シャープ化。
行動的および機械的証拠を合成すると、LLMで深さ依存の計算を解釈するためのフレームワークを提供します。

要約(オリジナル)

We investigate the robustness of Large Language Models (LLMs) to structural interventions by deleting and swapping adjacent layers during inference. Surprisingly, models retain 72-95% of their original top-1 prediction accuracy without any fine-tuning. We find that performance degradation is not uniform across layers: interventions to the early and final layers cause the most degradation, while the model is remarkably robust to dropping middle layers. This pattern of localized sensitivity motivates our hypothesis of four stages of inference, observed across diverse model families and sizes: (1) detokenization, where local context is integrated to lift raw token embeddings into higher-level representations; (2) feature engineering, where task- and entity-specific features are iteratively refined; (3) prediction ensembling, where hidden states are aggregated into plausible next-token predictions; and (4) residual sharpening, where irrelevant features are suppressed to finalize the output distribution. Synthesizing behavioral and mechanistic evidence, we provide a framework for interpreting depth-dependent computations in LLMs.

arxiv情報

著者 Vedang Lad,Wes Gurnee,Max Tegmark
発行日 2025-06-11 16:12:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク