要約
1ビットの大手言語モデル(LLMS)の効率的な展開は、活性化の外れ値によって妨げられており、これにより、量子化が低いビット幅に複雑になります。
1ビットLLMのネイティブ4ビット活性化量子化を可能にする新しいフレームワークであるBitnet V2を導入します。
注意とフィードフォワードネットワークのアクティベーションの外れ値に取り組むために、アクティベーション量子化の前にオンラインのハダマード変換を適用するモジュールであるH-Bitlinearを提案します。
この変換により、鋭い活性化分布は、低ビット表現に適した、よりガウスのような形態に滑らかになります。
実験では、8ビットのアクティベーションがビットネットB1.58のパフォーマンスと一致するゼロからトレーニングされたビットネットV2が示されています。
重要なことに、Bitnet V2は、ネイティブの4ビットアクティベーションで訓練された場合、パフォーマンスの低下を最小限に抑え、バッチ付き推論のメモリフットプリントと計算コストを大幅に削減します。
要約(オリジナル)
Efficient deployment of 1-bit Large Language Models (LLMs) is hindered by activation outliers, which complicate quantization to low bit-widths. We introduce BitNet v2, a novel framework enabling native 4-bit activation quantization for 1-bit LLMs. To tackle outliers in attention and feed-forward network activations, we propose H-BitLinear, a module applying an online Hadamard transformation prior to activation quantization. This transformation smooths sharp activation distributions into more Gaussian-like forms, suitable for low-bit representation. Experiments show BitNet v2 trained from scratch with 8-bit activations matches BitNet b1.58 performance. Crucially, BitNet v2 achieves minimal performance degradation when trained with native 4-bit activations, significantly reducing memory footprint and computational cost for batched inference.
arxiv情報
著者 | Hongyu Wang,Shuming Ma,Furu Wei |
発行日 | 2025-04-25 15:17:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google