要約
大規模な言語モデル(LLM)は、タスク全体で顕著なパフォーマンスを実現しますが、深い多層アーキテクチャのためにかなりの計算コストが発生します。
レイヤープルーニングはこれらの非効率性を緩和する戦略として浮上していますが、従来の静的剪定方法はLLM推論に固有の2つの重要なダイナミクスを見落としています:(1)トークンレベルの異質性がコンテキストアウェアプルーニングの決定を要求する水平ダイナミクス、および(2)MLPの垂直レイアーズレイアーズレイアーズレイアーズレイアーズレイアーズレイアーズレイアーズの垂直ダイナミクスを見下ろす
ポリシー。
2つのコアイノベーションを通じて計算リソース割り当てを最適化するように設計された動的レイヤー剪定フレームワークであるSkipGPTを紹介します。(1)重要なトークンに優先順位を付けるためのグローバルトークン認識ルーティング、および(2)MLPおよび自己科学コンポーネントの分離されたプルーニングポリシー。
トレーニングの不安定性を緩和するために、2段階の最適化パラダイムを提案します。まず、早期の剪定決定を回避するためにソフトパラメーター化を介してルーティング戦略を学習する解き込められたトレーニングフェーズで、その後、レイヤー除去が影響するパラメーター効率の高いロラ微調整を行います。
広範な実験では、SKIPGPTがベンチマーク全体で元の密なモデルのパフォーマンスを一致させるか、それを超えながら、モデルパラメーターの40%を超えることを示しています。
保存された表現力と動的効率を調和させることにより、SKIPGPTは、スケーラブルでリソース認識のLLMの実用的な展開を進めます。
私たちのコードは、https://github.com/eit-nlp/skipgptで公開されています。
要約(オリジナル)
Large language models (LLMs) achieve remarkable performance across tasks but incur substantial computational costs due to their deep, multi-layered architectures. Layer pruning has emerged as a strategy to alleviate these inefficiencies, but conventional static pruning methods overlook two critical dynamics inherent to LLM inference: (1) horizontal dynamics, where token-level heterogeneity demands context-aware pruning decisions, and (2) vertical dynamics, where the distinct functional roles of MLP and self-attention layers necessitate component-specific pruning policies. We introduce SkipGPT, a dynamic layer pruning framework designed to optimize computational resource allocation through two core innovations: (1) global token-aware routing to prioritize critical tokens, and (2) decoupled pruning policies for MLP and self-attention components. To mitigate training instability, we propose a two-stage optimization paradigm: first, a disentangled training phase that learns routing strategies via soft parameterization to avoid premature pruning decisions, followed by parameter-efficient LoRA fine-tuning to restore performance impacted by layer removal. Extensive experiments demonstrate that SkipGPT reduces over 40% of model parameters while matching or exceeding the performance of the original dense model across benchmarks. By harmonizing dynamic efficiency with preserved expressivity, SkipGPT advances the practical deployment of scalable, resource-aware LLMs. Our code is publicly available at: https://github.com/EIT-NLP/SkipGPT.
arxiv情報
著者 | Anhao Zhao,Fanghua Ye,Yingqi Fan,Junlong Tong,Zhiwei Fei,Hui Su,Xiaoyu Shen |
発行日 | 2025-06-04 17:26:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google