要約
大規模な言語モデルのサイズが増大することで、導入に課題が生じ、高いエネルギー消費による環境への影響に関する懸念が生じています。
この研究では、大規模な言語モデル向けに設計されたスケーラブルで安定した 1 ビット Transformer アーキテクチャである BitNet を紹介します。
具体的には、1 ビットの重みを最初からトレーニングするために、nn.Linear 層のドロップイン置換として BitLinear を導入します。
言語モデリングに関する実験結果では、BitNet は、最先端の 8 ビット量子化手法や FP16 Transformer ベースラインと比較して、メモリ フットプリントとエネルギー消費を大幅に削減しながら、競争力のあるパフォーマンスを達成していることが示されています。
さらに、BitNet は完全精度の Transformer に似たスケーリング則を示し、効率とパフォーマンスの利点を維持しながら、さらに大きな言語モデルに効果的にスケーリングできる可能性を示唆しています。
要約(オリジナル)
The increasing size of large language models has posed challenges for deployment and raised concerns about environmental impact due to high energy consumption. In this work, we introduce BitNet, a scalable and stable 1-bit Transformer architecture designed for large language models. Specifically, we introduce BitLinear as a drop-in replacement of the nn.Linear layer in order to train 1-bit weights from scratch. Experimental results on language modeling show that BitNet achieves competitive performance while substantially reducing memory footprint and energy consumption, compared to state-of-the-art 8-bit quantization methods and FP16 Transformer baselines. Furthermore, BitNet exhibits a scaling law akin to full-precision Transformers, suggesting its potential for effective scaling to even larger language models while maintaining efficiency and performance benefits.
arxiv情報
著者 | Hongyu Wang,Shuming Ma,Li Dong,Shaohan Huang,Huaijie Wang,Lingxiao Ma,Fan Yang,Ruiping Wang,Yi Wu,Furu Wei |
発行日 | 2023-10-17 17:59:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google