FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation

要約

この研究では、完全に BInarized Large Language Model (FBI-LLM) を紹介し、パフォーマンスに合わせて大規模なバイナリ言語モデル (BitNet b1.58 のような部分バイナリまたは 3 値 LLM ではなく) を最初からトレーニングする方法を初めて示します。
トランスベースの LLM の完全精度の同等品 (FP16 や BF16 など)。
これは、通常の LLM 事前トレーニングと同等のモデル ディメンション (130M、1.3B、7B) とトレーニング データ量を維持しながら自己回帰蒸留 (AD) 損失を採用することでこれを実現し、複雑さとタスク固有の有効性の点で競争力のある結果を提供します。
興味深いことに、トレーニング軌跡を分析することによって、バイナリ化された LLM を最初からトレーニングするのに事前トレーニングされた重みは必要ないことがわかります。
この研究は新しい計算フレームワークを奨励し、完全 1 ビット LLM に合わせた特殊なハードウェアの将来の設計を促進する可能性があります。
さらなる研究をサポートするために、すべてのモデル、コード、トレーニング データセットを完全にアクセス可能かつ透過的に作成します (コード: https://github.com/LiqunMa/FBI-LLM。モデル: https://huggingface.co/LiqunMa/)。

要約(オリジナル)

This work presents a Fully BInarized Large Language Model (FBI-LLM), demonstrating for the first time how to train a large-scale binary language model from scratch (not the partial binary or ternary LLM like BitNet b1.58) to match the performance of its full-precision counterparts (e.g., FP16 or BF16) in transformer-based LLMs. It achieves this by employing an autoregressive distillation (AD) loss with maintaining equivalent model dimensions (130M, 1.3B, 7B) and training data volume as regular LLM pretraining, while delivering competitive results in terms of perplexity and task-specific effectiveness. Intriguingly, by analyzing the training trajectory, we find that the pretrained weight is not necessary for training binarized LLMs from scratch. This research encourages a new computational framework and may facilitate the future design of specialized hardware tailored for fully 1-bit LLMs. We make all models, code, and training dataset fully accessible and transparent to support further research (Code: https://github.com/LiqunMa/FBI-LLM. Model: https://huggingface.co/LiqunMa/).

arxiv情報

著者 Liqun Ma,Mingjie Sun,Zhiqiang Shen
発行日 2024-07-09 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク