EfficientLLM: Scalable Pruning-Aware Pretraining for Architecture-Agnostic Edge Language Models

要約

スケーリング法則によって駆動される最新の大手言語モデル(LLM)は、大きなモデルサイズでインテリジェンスの緊急事態を達成します。
最近、クラウドコスト、待ち時間、プライバシーに関する懸念が高まっているため、コンパクトエッジ言語モデルを開発するための緊急の要件となります。
スケーリング法に囲まれた直接的な事前トレーニングとは区別され、この作業は、はるかに大きな最適化されたモデルのパフォーマンスを維持することに焦点を当てて、剪定を認識している前orainingを提案しています。
次の特性を特徴としています。1)データスケーラブル:LLMに最小パラメーターグループを導入し、構造剪定を継続的に最適化し、LLMプルナーやスパルセグプトなどのトレーニング後の剪定方法を前処理相に拡張します。
2)アーキテクチャ違反:LLMアーキテクチャは、顕著性駆動型の剪定を使用して自動設計されています。
LLM圧縮を拡大し、その境界を拡張することにより、効率的なllmと呼ばれる最高品質のエッジ言語モデルを達成していることがわかります。
Efficientllmは、Mobilellm、Smollm、Qwen2.5-0.5B、Olmo-1B、Llama3.2-1Bなど、100mmis \ SIM 1B $パラメーターでSOTAベースラインを大幅に上回ります。
最初の試みとして、EfficientLLMは従来のLLM圧縮と直接の事前トレーニング方法とのパフォーマンスギャップを橋渡しし、https://github.com/xingrun-xing2/efficientllmで完全にオープンソースを開きます。

要約(オリジナル)

Modern large language models (LLMs) driven by scaling laws, achieve intelligence emergency in large model sizes. Recently, the increasing concerns about cloud costs, latency, and privacy make it an urgent requirement to develop compact edge language models. Distinguished from direct pretraining that bounded by the scaling law, this work proposes the pruning-aware pretraining, focusing on retaining performance of much larger optimized models. It features following characteristics: 1) Data-scalable: we introduce minimal parameter groups in LLM and continuously optimize structural pruning, extending post-training pruning methods like LLM-Pruner and SparseGPT into the pretraining phase. 2) Architecture-agnostic: the LLM architecture is auto-designed using saliency-driven pruning, which is the first time to exceed SoTA human-designed LLMs in modern pretraining. We reveal that it achieves top-quality edge language models, termed EfficientLLM, by scaling up LLM compression and extending its boundary. EfficientLLM significantly outperforms SoTA baselines with $100M \sim 1B$ parameters, such as MobileLLM, SmolLM, Qwen2.5-0.5B, OLMo-1B, Llama3.2-1B in common sense benchmarks. As the first attempt, EfficientLLM bridges the performance gap between traditional LLM compression and direct pretraining methods, and we will fully open source at https://github.com/Xingrun-Xing2/EfficientLLM.

arxiv情報

著者 Xingrun Xing,Zheng Liu,Shitao Xiao,Boyan Gao,Yiming Liang,Wanpeng Zhang,Haokun Lin,Guoqi Li,Jiajun Zhang
発行日 2025-02-10 16:51:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク