要約
大規模言語モデル (LLM) の有効性と効率性を同時に改善することは、重要かつ挑戦的な研究目標です。
この論文では、通常、パフォーマンスを損なう効率的な方法と考えられている低ランクの事前トレーニングが、削減されたパラメーターが正確にターゲットにされている場合、スケーラブルに効果的である可能性があることを発見しました。
具体的には、低次元モジュールを注目層にのみ適用することで、この問題が解決され、効果と効率の両方が向上します。
私たちはこの構造を低次元投影型注意 (LPA) と呼び、説明的な分析を提供します。
130M、370M のパラメーター スケール、および 3B までのスケールアップでの広範な実験を通じて、LPA の有効性とスケーラビリティを検証しました。
私たちの結果は、LPA モデルは通常の Transformer と比較して、テストの複雑さ (ppl) とダウンストリーム タスクで約 5% の改善を達成しながら、時間を最大 12.4% 節約できることを示しています。
要約(オリジナル)
Improving the effectiveness and efficiency of large language models (LLMs) simultaneously is a critical yet challenging research goal. In this paper, we find that low-rank pre-training, normally considered as efficient methods that will compromise performance, can be scalably effective when reduced parameters are precisely targeted. Specifically, applying the low-dimensional module only to the attention layer — resolves this issue and enhances both effectiveness and efficiency. We refer to this structure as Low-dimensional Projected Attention (LPA) and provide an explanatory analysis. Through extensive experimentation at parameter scales of 130M, 370M, and scaling up to 3B, we have validated the effectiveness and scalability of LPA. Our results show that LPA model can save up to 12.4% in time while achieving an approximate 5% improvement in test perplexity (ppl) and on downstream tasks compared with the vanilla Transformer.
arxiv情報
著者 | Xingtai Lv,Ning Ding,Kaiyan Zhang,Ermo Hua,Ganqu Cui,Bowen Zhou |
発行日 | 2024-11-04 13:06:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google