Transformer Layer Injection: A Novel Approach for Efficient Upscaling of Large Language Models

要約

この論文では、計算コストを最小限に抑え、モデルのパフォーマンスを維持しながら、大規模言語モデル (LLM) を効率的にアップスケーリングするための新しい方法である Transformer Layer Injection (TLI) を提案します。
モデルのスケールは機械学習モデルの品質を高めるための重要な要素であり、TLI は初期損失を削減し、微調整要件を最小限に抑え、モデルの複雑さを維持することでスケーリングの課題に対処します。
私たちのアプローチは、K 個のレイヤーのセットごとに新しいレイヤーを注入することで従来の深度アップスケーリング (DUS) 技術を改良し、最小限の中断で隠れた表現がトランスフォーマー ブロックを通過できるようにします。
私たちは TLI を、Mixture of Experts (MoE) や DUS などの既存のアプローチと比較し、小規模 LLM (LLama3 1B、3B、および 8B) での実験を通じてその効率を検証します。
結果は、TLI がより優れた初期化を実現し、必要なトレーニング ステップが少なく、KoBEST や KMCQA などのタスクで優れた精度を実現し、追加のトレーニングなしでもモデルが効果的に動作することを示しています。
TLI はデータ効率とコスト効率の両方が高く、既存の方法よりも大幅に優れていることが実証されています。
そのスケーラビリティとシンプルさにより、トランスベースのモデルをアップスケーリングするための有望なソリューションとなり、10B から 405B パラメータまでのモデルのスケーリングに応用できる可能性があります。

要約(オリジナル)

In this paper, we propose Transformer Layer Injection (TLI), a novel method for efficiently upscaling large language models (LLMs) while minimizing computational costs and maintaining model performance. Model scale is a key factor in enhancing the quality of machine learning models, and TLI addresses the challenge of scaling by reducing initial loss, minimizing fine-tuning requirements, and preserving model complexity. Our approach improves upon the conventional Depth Up-Scaling (DUS) technique by injecting new layers into every set of K layers, enabling hidden representations to pass through transformer blocks with minimal disruption. We compare TLI with existing approaches, including Mixture of Experts (MoE) and DUS, and validate its efficiency through experiments on small LLMs (LLama3 1B, 3B, and 8B). Results show that TLI achieves better initialization, requires fewer training steps, and delivers superior accuracy on tasks such as KoBEST and KMCQA, with models performing effectively even without additional training. TLI is demonstrated to be both data-efficient and cost-effective, significantly outperforming existing methods. Its scalability and simplicity make it a promising solution for upscaling transformer-based models, with potential applications in scaling models from 10B to 405B parameters.

arxiv情報

著者 James Vo
発行日 2024-10-15 14:41:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク