要約
大規模な言語モデル(LLMS)は、多数のタスクにわたって最先端の機能を提供しますが、その巨大なサイズと推論コストは、実際の展開に大きな計算上の課題をもたらします。
構造化された剪定はモデル圧縮の有望な手段を提供しますが、既存の方法はしばしば、攻撃的で同時幅と深さ削減の有害な影響と闘い、実質的なパフォーマンスの低下につながります。
このペーパーでは、このような積極的な関節剪定を実行可能にする際の重要な、しばしば見落とされがちな側面は、モデルの実施後のトレーニング精度を改善するための残りの重みの戦略的な再目的化と調整であると主張しています。
Pangu Lightを紹介します。PanguLightは、この「欠落しているピース」に対処するために設計された新規重量の再初期化技術と組み合わされた構造化された剪定を中心とするLLM加速度のフレームワークを紹介します。
私たちのフレームワークは、モデル幅、深さ、注意ヘッド、RMSNormなどの複数の軸を系統的に標的にし、その効果は、ネットワークをより良いトレーニングの開始点を提供することでパフォーマンスを軽減するレイヤーーム剪定を安定化するレイヤーーム剪定(SLNP)などの新しい再現方法に根ざしています。
Pangu Lightは、効率をさらに高めることで、RMSNORM後の計算を吸収するなどの特殊な最適化を組み込み、NPU特性を上げるための戦略を調整します。
Pangu Lightモデルは、NemotronやQWEN3シリーズのような確立されたLLMのような顕著なベースライン剪定方法を上回る優れた精度効率のトレードオフを一貫して示しています。
たとえば、Ascend NPUでは、Pangue Light-32Bの81.6の平均スコアと2585トークン/sのスループットがQWEN3-32Bの80.9平均スコアと2225トークン/sを超えています。
要約(オリジナル)
Large Language Models (LLMs) deliver state-of-the-art capabilities across numerous tasks, but their immense size and inference costs pose significant computational challenges for practical deployment. While structured pruning offers a promising avenue for model compression, existing methods often struggle with the detrimental effects of aggressive, simultaneous width and depth reductions, leading to substantial performance degradation. This paper argues that a critical, often overlooked, aspect in making such aggressive joint pruning viable is the strategic re-initialization and adjustment of remaining weights to improve the model post-pruning training accuracies. We introduce Pangu Light, a framework for LLM acceleration centered around structured pruning coupled with novel weight re-initialization techniques designed to address this “missing piece”. Our framework systematically targets multiple axes, including model width, depth, attention heads, and RMSNorm, with its effectiveness rooted in novel re-initialization methods like Cross-Layer Attention Pruning (CLAP) and Stabilized LayerNorm Pruning (SLNP) that mitigate performance drops by providing the network a better training starting point. Further enhancing efficiency, Pangu Light incorporates specialized optimizations such as absorbing Post-RMSNorm computations and tailors its strategies to Ascend NPU characteristics. The Pangu Light models consistently exhibit a superior accuracy-efficiency trade-off, outperforming prominent baseline pruning methods like Nemotron and established LLMs like Qwen3 series. For instance, on Ascend NPUs, Pangu Light-32B’s 81.6 average score and 2585 tokens/s throughput exceed Qwen3-32B’s 80.9 average score and 2225 tokens/s.
arxiv情報
著者 | Hanting Chen,Jiarui Qin,Jialong Guo,Tao Yuan,Yichun Yin,Huiling Zhen,Yasheng Wang,Jinpeng Li,Xiaojun Meng,Meng Zhang,Rongju Ruan,Zheyuan Bai,Yehui Tang,Can Chen,Xinghao Chen,Fisher Yu,Ruiming Tang,Yunhe Wang |
発行日 | 2025-05-26 15:57:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google