BitNet: Scaling 1-bit Transformers for Large Language Models

要約

大規模な言語モデルのサイズが増大することで、導入に課題が生じ、高いエネルギー消費による環境への影響に関する懸念が生じています。
この研究では、大規模な言語モデル向けに設計されたスケーラブルで安定した 1 ビット Transformer アーキテクチャである BitNet を紹介します。
具体的には、1 ビットの重みを最初からトレーニングするために、nn.Linear 層のドロップイン置換として BitLinear を導入します。
言語モデリングに関する実験結果では、BitNet は、最先端の 8 ビット量子化手法や FP16 Transformer ベースラインと比較して、メモリ フットプリントとエネルギー消費を大幅に削減しながら、競争力のあるパフォーマンスを達成していることが示されています。
さらに、BitNet は完全精度の Transformer に似たスケーリング則を示し、効率とパフォーマンスの利点を維持しながら、さらに大きな言語モデルに効果的にスケーリングできる可能性を示唆しています。

要約(オリジナル)

The increasing size of large language models has posed challenges for deployment and raised concerns about environmental impact due to high energy consumption. In this work, we introduce BitNet, a scalable and stable 1-bit Transformer architecture designed for large language models. Specifically, we introduce BitLinear as a drop-in replacement of the nn.Linear layer in order to train 1-bit weights from scratch. Experimental results on language modeling show that BitNet achieves competitive performance while substantially reducing memory footprint and energy consumption, compared to state-of-the-art 8-bit quantization methods and FP16 Transformer baselines. Furthermore, BitNet exhibits a scaling law akin to full-precision Transformers, suggesting its potential for effective scaling to even larger language models while maintaining efficiency and performance benefits.

arxiv情報

著者 Hongyu Wang,Shuming Ma,Li Dong,Shaohan Huang,Huaijie Wang,Lingxiao Ma,Fan Yang,Ruiping Wang,Yi Wu,Furu Wei
発行日 2023-10-17 17:59:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク