要約
大規模な言語モデルをスパイクすることは、さまざまなシナリオでLLMの優れた代替手段として示されています。
スパイクLLMを作成するための既存の方法、つまり直接トレーニングとANN-SNN変換は、パフォーマンスの劣化と比較的高い計算コストに苦しむことがよくあります。
これらの問題に対処するために、LLMを2段階でスパイクLLMに変換する新しい高速ANN-SNN変換戦略(FAS)を提案します。
最初の段階では、事前に訓練されたモデルのフルパラメーターの微調整を採用するため、ゼロから直接トレーニングする必要はありません。
第2段階では、変換エラーを減らし、精度を向上させるために、粗からファインのキャリブレーション方法を導入します。
LLMSの4つの異なるスケールにわたる言語および視覚言語の両方のタスクに関する実験は、FASが推論の遅延と計算コストを大幅に削減して、最先端のパフォーマンスを達成できることを示しています。
特に、FASは8つのタイムステップのみを使用して、OPT-7Bモデルの精度よりも3 \%の精度を達成し、エネルギー消費量を96.63 \%削減します。
ソースコードは、https://github.com/lc783/fasで入手できます
要約(オリジナル)
Spiking Large Language Models have been shown as a good alternative to LLMs in various scenarios. Existing methods for creating Spiking LLMs, i.e., direct training and ANN-SNN conversion, often suffer from performance degradation and relatively high computational costs. To address these issues, we propose a novel Fast ANN-SNN conversion strategy (FAS) that transforms LLMs into spiking LLMs in two stages. The first stage employs a full-parameter fine-tuning of pre-trained models, so it does not need any direct training from scratch. The second stage introduces a coarse-to-fine calibration method to reduce conversion errors and improve accuracy. Experiments on both language and vision-language tasks across four different scales of LLMs demonstrate that FAS can achieve state-of-the-art performance yet with significantly reduced inference latency and computational costs. Notably, FAS only takes eight timesteps to achieve an accuracy of 3\% higher than that of the OPT-7B model, while reducing energy consumption by 96.63\%. The source code is available at https://github.com/lc783/FAS
arxiv情報
著者 | Long Chen,Xiaotian Song,Andy Song,BaDong Chen,Jiancheng Lv,Yanan Sun |
発行日 | 2025-05-14 05:23:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google