Analog Foundation Models

要約

アナログインメモリコンピューティング(AIMC)は、従来のフォンノイマンベースのアーキテクチャの限界を超えて、ニューラルネットワーク推論の速度と電力効率を改善するための有望な計算パラダイムです。
ただし、AIMCは、騒々しい計算や入出力の量子化に対する厳格な制約などの基本的な課題を導入します。
これらの制約と不正確さのため、既製のLLMは、AIMCベースのハードウェアに展開したときに4ビットレベルのパフォーマンスを達成することができません。
研究者は以前、小さな視覚ベースの小さなモデルでこの精度ギャップを回復することを調査しましたが、数兆トークンで事前に訓練されたLLMに適用される一般的な方法はまだ存在していません。
この作業では、騒々しい低精度のアナログハードウェアで実行するためにLLMSを堅牢に適応させるための一般的でスケーラブルな方法を導入します。
当社のアプローチにより、PHI-3-MINI-4K-INSTRUCTおよびLLAMA-3.2-1B-INSTRUCT $ \ UNICODE {X2013} $を含む最先端のモデル$ \ Unicode {x2013} $が可能になります。
さらに、トレーニング方法の副産物として、Analog Foundationモデルは、低精度のデジタルハードウェアへの推論のために量子化できることを示しています。
最後に、私たちのモデルは、テスト時間計算スケーリングの恩恵を受け、4ビット重量と8ビット静的入力量子化でトレーニングされたモデルよりも優れたスケーリング動作を示すことを示します。
私たちの作業は、大容量のLLMと効率的なアナログハードウェアとの間のギャップを橋渡しし、エネルギー効率の高い基礎モデルへの道を提供します。
コードはhttps://github.com/ibm/analog-foundation-modelsで入手できます。

要約(オリジナル)

Analog in-memory computing (AIMC) is a promising compute paradigm to improve speed and power efficiency of neural network inference beyond the limits of conventional von Neumann-based architectures. However, AIMC introduces fundamental challenges such as noisy computations and strict constraints on input and output quantization. Because of these constraints and imprecisions, off-the-shelf LLMs are not able to achieve 4-bit-level performance when deployed on AIMC-based hardware. While researchers previously investigated recovering this accuracy gap on small, mostly vision-based models, a generic method applicable to LLMs pre-trained on trillions of tokens does not yet exist. In this work, we introduce a general and scalable method to robustly adapt LLMs for execution on noisy, low-precision analog hardware. Our approach enables state-of-the-art models $\unicode{x2013}$ including Phi-3-mini-4k-instruct and Llama-3.2-1B-Instruct $\unicode{x2013}$ to retain performance comparable to 4-bit weight, 8-bit activation baselines, despite the presence of analog noise and quantization constraints. Additionally, we show that as a byproduct of our training methodology, analog foundation models can be quantized for inference on low-precision digital hardware. Finally, we show that our models also benefit from test-time compute scaling, showing better scaling behavior than models trained with 4-bit weight and 8-bit static input quantization. Our work bridges the gap between high-capacity LLMs and efficient analog hardware, offering a path toward energy-efficient foundation models. Code is available at https://github.com/IBM/analog-foundation-models.

arxiv情報

著者 Julian Büchel,Iason Chalas,Giovanni Acampa,An Chen,Omobayode Fagbohungbe,Sidney Tsai,Kaoutar El Maghraoui,Manuel Le Gallo,Abbas Rahimi,Abu Sebastian
発行日 2025-05-16 15:24:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク