TransNormerLLM: A Faster and Better Large Language Model with Improved TransNormer

要約

我々は、精度と効率の両方の点で従来のソフトマックスの注意ベースのモデルを上回る初の線形注意ベースの大規模言語モデル (LLM) である TransNormerLLM を紹介します。
TransNormerLLM は、位置埋め込み、線形アテンション アクセラレーション、ゲート メカニズム、テンソル正規化、推論の高速化と安定化を含む高度な変更を加えることにより、以前の線形アテンション アーキテクチャである TransNormer から進化しています。
具体的には、LRPE を指数関数的減衰と組み合わせて使用​​し、注目度の低下の問題を回避しながら、モデルがトークン間のグローバルな相互作用を保持できるようにします。
さらに、実行時に線形アテンションを 2 倍以上加速し、メモリ使用量を 4 倍も大幅に削減する最先端の技術である Lightning Attend を提案します。
TransNormer のパフォーマンスをさらに強化するために、スムーズなトレーニングのためのゲート メカニズムとモデルを高速化するための新しいテンソル正規化スキームを活用し、$20\%$ を超える驚異的な高速化を実現しました。
さらに、シーケンスの長さに関係なく、数値安定性と一貫した推論速度を保証する堅牢な推論アルゴリズムを開発し、トレーニングと推論の両方の段階で優れた効率を示します。
また、TransNormerLLM 用の効率的なモデル並列スキーマを実装し、大規模クラスターでのシームレスな展開を可能にし、より広範なモデル (つまり 175B パラメータを持つ LLM) への拡張を容易にします。
一連のアブレーションを通じてモデル設計を検証し、自己収集したコーパス上で 385M、1B、および 7B のサイズのモデルをトレーニングします。
ベンチマーク結果は、当社のモデルが Transformer を備えた最先端の LLM のパフォーマンスに匹敵するだけでなく、大幅に高速であることを示しています。
コードは https://github.com/OpenNLPLab/TransnormerLLM でリリースされています。

要約(オリジナル)

We present TransNormerLLM, the first linear attention-based Large Language Model (LLM) that outperforms conventional softmax attention-based models in terms of both accuracy and efficiency. TransNormerLLM evolves from the previous linear attention architecture TransNormer by making advanced modifications that include positional embedding, linear attention acceleration, gating mechanisms, tensor normalization, and inference acceleration and stabilization. Specifically, we use LRPE together with an exponential decay to avoid attention dilution issues while allowing the model to retain global interactions between tokens. Additionally, we propose Lightning Attention, a cutting-edge technique that accelerates linear attention by more than twice in runtime and reduces memory usage by a remarkable four times. To further enhance the performance of TransNormer, we leverage a gating mechanism for smooth training and a new tensor normalization scheme to accelerate the model, resulting in an impressive acceleration of over $20\%$. Furthermore, we develop a robust inference algorithm that ensures numerical stability and consistent inference speed, regardless of the sequence length, showcasing superior efficiency during both training and inference stages. We also implement an efficient model parallel schema for TransNormerLLM, enabling seamless deployment on large-scale clusters and facilitating expansion to even more extensive models, i.e., LLMs with 175B parameters. We validate our model design through a series of ablations and train models with sizes of 385M, 1B, and 7B on our self-collected corpus. Benchmark results demonstrate that our models not only match the performance of state-of-the-art LLMs with Transformer but are also significantly faster. Code is released at: https://github.com/OpenNLPLab/TransnormerLLM.

arxiv情報

著者 Zhen Qin,Dong Li,Weigao Sun,Weixuan Sun,Xuyang Shen,Xiaodong Han,Yunshen Wei,Baohong Lv,Xiao Luo,Yu Qiao,Yiran Zhong
発行日 2024-01-19 07:47:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク