BitNet b1.58 2B4T Technical Report

要約

200億パラメータースケールで最初のオープンソース、ネイティブ1ビット大手言語モデル(LLM)であるBitnet B1.58 2B4Tを紹介します。
4兆トークンのコーパスで訓練されたこのモデルは、言語の理解、数学的推論、コーディングの習熟度、および会話能力をカバーするベンチマーク間で厳密に評価されています。
我々の結果は、Bitnet B1.58 2B4Tが、同様のサイズの主要なオープンウェイト、フルペリジョンLLMと同等のパフォーマンスを達成し、メモリフットプリント、エネルギー消費、デコードレイテンシを大幅に削減することを含む計算効率に大きな利点を提供することを示しています。
さらなる研究と採用を促進するために、モデルの重みは、GPUアーキテクチャとCPUアーキテクチャの両方のオープンソース推論の実装とともに、顔を抱きしめることを介してリリースされます。

要約(オリジナル)

We introduce BitNet b1.58 2B4T, the first open-source, native 1-bit Large Language Model (LLM) at the 2-billion parameter scale. Trained on a corpus of 4 trillion tokens, the model has been rigorously evaluated across benchmarks covering language understanding, mathematical reasoning, coding proficiency, and conversational ability. Our results demonstrate that BitNet b1.58 2B4T achieves performance on par with leading open-weight, full-precision LLMs of similar size, while offering significant advantages in computational efficiency, including substantially reduced memory footprint, energy consumption, and decoding latency. To facilitate further research and adoption, the model weights are released via Hugging Face along with open-source inference implementations for both GPU and CPU architectures.

arxiv情報

著者 Shuming Ma,Hongyu Wang,Shaohan Huang,Xingxing Zhang,Ying Hu,Ting Song,Yan Xia,Furu Wei
発行日 2025-04-16 17:51:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク