Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis

要約

最先端の LLM は多くの場合、高い計算コストを伴うスケールに依存しているため、パフォーマンスに大きな影響を与えることなくパラメータ数とコストを削減するという研究課題が浮上しています。
私たちの研究は、Transformer ベースの LLM に焦点を当てており、特にアテンション ブロックほど研究されていない計算集約型フィードフォワード ネットワーク (FFN) に低ランクのパラメータ化を適用しています。
以前の研究とは対照的に、(i) 最大 1.3B パラメータまでの大規模な低ランクのパラメータ化を調査します。
(ii) 畳み込みアーキテクチャではなく、Transformer 言語モデル内で。
(iii) ゼロからトレーニングを開始する。
大規模な RefinedWeb データセットでの実験では、低ランクのパラメータ化が効率的 (例: 32\% のパラメータで 2.6$\times$ FFN の高速化) であり、トレーニング中に効果的であることが示されています。
興味深いことに、これらの構造化 FFN は、元のモデルよりも急なスケーリング曲線を示します。
この発見を動機として、私たちは現在の中型および大型のTransformerを複雑さとスループット性能で上回る、広範囲で構造化されたネットワークを開発します。
私たちのコードは https://github.com/CLAIRE-Labo/StructuredFFN/tree/main で入手できます。

要約(オリジナル)

State-of-the-art LLMs often rely on scale with high computational costs, which has sparked a research agenda to reduce parameter counts and costs without significantly impacting performance. Our study focuses on Transformer-based LLMs, specifically applying low-rank parametrization to the computationally intensive feedforward networks (FFNs), which are less studied than attention blocks. In contrast to previous works, (i) we explore low-rank parametrization at scale, up to 1.3B parameters; (ii) within Transformer language models rather than convolutional architectures; and (iii) starting from training from scratch. Experiments on the large RefinedWeb dataset show that low-rank parametrization is both efficient (e.g., 2.6$\times$ FFN speed-up with 32\% parameters) and effective during training. Interestingly, these structured FFNs exhibit steeper scaling curves than the original models. Motivated by this finding, we develop the wide and structured networks surpassing the current medium-sized and large-sized Transformer in perplexity and throughput performance. Our code is available at https://github.com/CLAIRE-Labo/StructuredFFN/tree/main.

arxiv情報

著者 Xiuying Wei,Skander Moalla,Razvan Pascanu,Caglar Gulcehre
発行日 2024-07-24 12:43:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク