Scaling TransNormer to 175 Billion Parameters

要約

我々は、精度と効率の両方の点で従来のソフトマックスの注意ベースのモデルを上回る初の線形注意ベースの大規模言語モデル (LLM) である TransNormerLLM を紹介します。
TransNormerLLM は、位置埋め込み、線形アテンション アクセラレーション、ゲート メカニズム、テンソル正規化、推論アクセラレーション、安定化などの高度な変更を加えることにより、以前の線形アテンション アーキテクチャである TransNormer から進化しています。
具体的には、LRPE を指数関数的減衰と組み合わせて使用​​し、注目度の低下の問題を回避しながら、モデルがトークン間のグローバルな相互作用を保持できるようにします。
さらに、実行時に線形アテンションを 2 倍以上加速し、メモリ使用量を 4 倍も大幅に削減する最先端の技術である Lightning Attend を提案します。
TransNormer のパフォーマンスをさらに強化するために、トレーニングをスムーズにするためのゲート メカニズムとモデルを加速するための新しいテンソル正規化スキームを活用し、20% を超える驚異的な加速を実現しました。
さらに、シーケンスの長さに関係なく、数値安定性と一貫した推論速度を保証する堅牢な推論アルゴリズムを開発し、トレーニングと推論の両方の段階で優れた効率を示しました。
スケーラビリティはモデル設計の中心であり、優れたパフォーマンス メトリクスを維持しながら、大規模クラスタへのシームレスな導入を可能にし、さらに大規模なモデルへの拡張を容易にします。
モデル設計の厳密な検証は、6 TB を超えるサイズを誇り、2 兆を超えるトークンを含む自己収集コーパスに対する一連の包括的な実験を通じて実現されます。
データの品質と関連性を確保するために、収集したデータをフィルタリングするための新しい自己洗浄戦略を実装しています。
事前トレーニングされたモデルは、効率的な LLM におけるコミュニティの進歩を促進するためにリリースされます。

要約(オリジナル)

We present TransNormerLLM, the first linear attention-based Large Language Model (LLM) that outperforms conventional softmax attention-based models in terms of both accuracy and efficiency. TransNormerLLM evolves from the previous linear attention architecture TransNormer by making advanced modifications that include positional embedding, linear attention acceleration, gating mechanism, tensor normalization, inference acceleration and stabilization. Specifically, we use LRPE together with an exponential decay to avoid attention dilution issues while allowing the model to retain global interactions between tokens. Additionally, we propose Lightning Attention, a cutting-edge technique that accelerates linear attention by more than twice in runtime and reduces memory usage by a remarkable four times. To further enhance the performance of TransNormer, we leverage a gating mechanism to smooth training and a new tensor normalization scheme to accelerate the model, resulting in an impressive acceleration of over 20%. Furthermore, we have developed a robust inference algorithm that ensures numerical stability and consistent inference speed, regardless of the sequence length, showcasing superior efficiency during both training and inference stages. Scalability is at the heart of our model’s design, enabling seamless deployment on large-scale clusters and facilitating expansion to even more extensive models, all while maintaining outstanding performance metrics. Rigorous validation of our model design is achieved through a series of comprehensive experiments on our self-collected corpus, boasting a size exceeding 6TB and containing over 2 trillion tokens. To ensure data quality and relevance, we implement a new self-cleaning strategy to filter our collected data. Our pre-trained models will be released to foster community advancements in efficient LLMs.

arxiv情報

著者 Zhen Qin,Dong Li,Weigao Sun,Weixuan Sun,Xuyang Shen,Xiaodong Han,Yunshen Wei,Baohong Lv,Fei Yuan,Xiao Luo,Yu Qiao,Yiran Zhong
発行日 2023-07-27 16:45:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク