要約
線形再発モデリングを備えたトランスは、線形時間トレーニングと一定のメモリ推論を提供します。
実証された効率とパフォーマンスにもかかわらず、そのような非標準的なアーキテクチャをゼロから前から取ることは、費用がかかり、危険なままです。
大規模な言語モデル(LLMS)の線形化は、前処理された標準モデルを線形再発構造に変換し、より効率的な展開を可能にします。
ただし、現在の線形化方法では、通常、広範な微調整を必要とする追加の特徴マップモジュールを導入し、最先端の線形再発モデルで使用されるゲーティングメカニズムを見落としています。
これらの問題に対処するために、このペーパーでは、LLMSを線形化するための略奪的な再発構造の略であるライガーを紹介します。
Ligerは、追加のパラメーターを追加せずに、前処理されたLLMをゲートの線形再発モデルに変換するための新しいアプローチです。
事前に抑制されたキーマトリックスの重みを再利用して、多様なゲーティングメカニズムを構築し、さまざまなゲートの再発構造の形成を促進しながら、追加のコンポーネントをゼロから訓練する必要性を避けます。
Ligerは、低ランク適応(LORA)を使用した軽量の微調整を使用して、線形化されたゲート再発モデルの性能を回復し、元のLLMのパフォーマンスを復元します。
さらに、Ligerの注意を紹介します。これは、線形化プロセス中に0.02 \%のトレーニング前トークンで変圧器ベースのLLMの93%を大幅に回復し、1Bから8Bのパラメーターの範囲のモデルで検証されている複数のベンチマークにわたって競争力のある結果を達成します。
コードはhttps://github.com/opensparsellms/linearizationで入手できます。
要約(オリジナル)
Transformers with linear recurrent modeling offer linear-time training and constant-memory inference. Despite their demonstrated efficiency and performance, pretraining such non-standard architectures from scratch remains costly and risky. The linearization of large language models (LLMs) transforms pretrained standard models into linear recurrent structures, enabling more efficient deployment. However, current linearization methods typically introduce additional feature map modules that require extensive fine-tuning and overlook the gating mechanisms used in state-of-the-art linear recurrent models. To address these issues, this paper presents Liger, short for Linearizing LLMs to gated recurrent structures. Liger is a novel approach for converting pretrained LLMs into gated linear recurrent models without adding extra parameters. It repurposes the pretrained key matrix weights to construct diverse gating mechanisms, facilitating the formation of various gated recurrent structures while avoiding the need to train additional components from scratch. Using lightweight fine-tuning with Low-Rank Adaptation (LoRA), Liger restores the performance of the linearized gated recurrent models to match that of the original LLMs. Additionally, we introduce Liger Attention, an intra-layer hybrid attention mechanism, which significantly recovers 93\% of the Transformer-based LLM at 0.02\% pre-training tokens during the linearization process, achieving competitive results across multiple benchmarks, as validated on models ranging from 1B to 8B parameters. Code is available at https://github.com/OpenSparseLLMs/Linearization.
arxiv情報
著者 | Disen Lan,Weigao Sun,Jiaxi Hu,Jusen Du,Yu Cheng |
発行日 | 2025-05-07 07:42:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google