LESA: Learnable LLM Layer Scaling-Up

要約

大規模な言語モデル(LLMS)をゼロからトレーニングするには、膨大な計算リソースが必要であり、非常に高価になります。
モデルスケーリングアップは、より大きなモデルのパラメーターを活用して大きなモデルを作成することにより、有望なソリューションを提供します。
ただし、既存の深さのスケーリング方法は、層の複製の経験的ヒューリスティックルールに依存しており、その結果、初期化が劣り、継続的なトレーニング中の収束が遅くなります。
\ textbf {lesa}を提案します。これは、深さスケーリングのための新しい学習可能な方法です。
各レイヤーからパラメーターを連結し、特異値分解を適用することにより、レイヤー間の潜在パターンを明らかにし、層間パラメーターを学習できることを示唆しています。
LESAは、ニューラルネットワークを使用して、隣接する層の間に挿入されたパラメーターを予測し、より良い初期化とより高速なトレーニングを可能にします。
実験は、LESAが既存のベースラインを上回り、継続的なトレーニング中に計算コストの半分以下で優れたパフォーマンスを達成することを示しています。
広範な分析は、さまざまなモデルサイズとタスクにわたる有効性を示しています。

要約(オリジナル)

Training Large Language Models (LLMs) from scratch requires immense computational resources, making it prohibitively expensive. Model scaling-up offers a promising solution by leveraging the parameters of smaller models to create larger ones. However, existing depth scaling-up methods rely on empirical heuristic rules for layer duplication, which result in poorer initialization and slower convergence during continual pre-training. We propose \textbf{LESA}, a novel learnable method for depth scaling-up. By concatenating parameters from each layer and applying Singular Value Decomposition, we uncover latent patterns between layers, suggesting that inter-layer parameters can be learned. LESA uses a neural network to predict the parameters inserted between adjacent layers, enabling better initialization and faster training. Experiments show that LESA outperforms existing baselines, achieving superior performance with less than half the computational cost during continual pre-training. Extensive analyses demonstrate its effectiveness across different model sizes and tasks.

arxiv情報

著者 Yifei Yang,Zouying Cao,Xinbei Ma,Yao Yao,Libo Qin,Zhi Chen,Hai Zhao
発行日 2025-02-19 14:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク