要約
隣接するレイヤーを削除および交換することにより、大規模言語モデルの顕著な堅牢性を実証および調査します。
介入の削除と交換では、微調整を行わなくても元のモデルの予測精度の 72 ~ 95% が維持されるのに対し、層が多いモデルはより堅牢性を示すことがわかりました。
レイヤーごとの介入とさらなる実験の結果に基づいて、8 つの異なるモデルにわたる推論の 4 つの普遍的な段階 (非トークン化、特徴量エンジニアリング、予測アンサンブル、残差シャープニング) が存在するという仮説を立てます。
最初のステージでは、ローカル情報を統合し、生のトークン表現をより高いレベルのコンテキスト表現に持ち上げます。
次に、タスクとエンティティ固有の機能を反復的に改良します。
次に、モデルの後半はフェーズ遷移から始まり、特殊なモデル コンポーネントにより、隠れた表現が語彙空間とより一致します。
最後に、最後の層は、予測にノイズを加える古い機能を排除することで、次のトークン分布を鮮明にします。
要約(オリジナル)
We demonstrate and investigate the remarkable robustness of Large Language Models by deleting and swapping adjacent layers. We find that deleting and swapping interventions retain 72-95\% of the original model’s prediction accuracy without fine-tuning, whereas models with more layers exhibit more robustness. Based on the results of the layer-wise intervention and further experiments, we hypothesize the existence of four universal stages of inference across eight different models: detokenization, feature engineering, prediction ensembling, and residual sharpening. The first stage integrates local information, lifting raw token representations into higher-level contextual representations. Next is the iterative refinement of task and entity-specific features. Then, the second half of the model begins with a phase transition, where hidden representations align more with the vocabulary space due to specialized model components. Finally, the last layer sharpens the following token distribution by eliminating obsolete features that add noise to the prediction.
arxiv情報
著者 | Vedang Lad,Wes Gurnee,Max Tegmark |
発行日 | 2024-06-27 17:57:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google