Linearizing Large Language Models

要約

線形変換器は、ソフトマックスの注目に代わる二次時間の代替手段として登場し、固定サイズの反復状態により推論コストが削減されるため、大きな関心を集めています。
ただし、元の定式化ではスケーリングが不十分であり、コンピューティングが一致したトランスフォーマーのパフォーマンスを下回っています。
RWKV や Mamba などの最近の線形モデルは、新しい時間ミキシングおよびゲーティング アーキテクチャを提案することでこれらの欠点に対処しようとしていますが、大規模な言語モデルの事前トレーニングには多大なデータとコンピューティングへの投資が必要です。
したがって、二次二次アーキテクチャの探索は、利用可能なコンピューティングと高品質の事前トレーニング データセットによって制限されます。
リニアトランスフォーマーの事前トレーニングに代わる費用対効果の高い代替手段として、Scalable UPtraining for Recurrent tention (SUPRA) を提案します。
我々は、適度なコンピューティング予算で既存の大規模な事前トレーニング済みトランスフォーマーをリカレント ニューラル ネットワーク (RNN) にアップトレーニングする方法を紹介します。
これにより、トレーニング コストの 5% を必要としながら、既存のトランスフォーマー LLM の強力な事前トレーニング データとパフォーマンスを活用することができます。
私たちの線形化手法は標準ベンチマークで競争力のあるパフォーマンスにつながることがわかりましたが、最大の線形モデルであっても永続的なインコンテキスト学習とロングコンテキスト モデリングの不足を特定しました。
私たちのコードとモデルは https://github.com/TRI-ML/linear_open_lm で見つけることができます。

要約(オリジナル)

Linear transformers have emerged as a subquadratic-time alternative to softmax attention and have garnered significant interest due to their fixed-size recurrent state that lowers inference cost. However, their original formulation suffers from poor scaling and underperforms compute-matched transformers. Recent linear models such as RWKV and Mamba have attempted to address these shortcomings by proposing novel time-mixing and gating architectures, but pre-training large language models requires significant data and compute investments. Thus, the search for subquadratic architectures is limited by the availability of compute and quality pre-training datasets. As a cost-effective alternative to pre-training linear transformers, we propose Scalable UPtraining for Recurrent Attention (SUPRA). We present a method to uptrain existing large pre-trained transformers into Recurrent Neural Networks (RNNs) with a modest compute budget. This allows us to leverage the strong pre-training data and performance of existing transformer LLMs, while requiring 5% of the training cost. We find that our linearization technique leads to competitive performance on standard benchmarks, but we identify persistent in-context learning and long-context modeling shortfalls for even the largest linear models. Our code and models can be found at https://github.com/TRI-ML/linear_open_lm.

arxiv情報

著者 Jean Mercat,Igor Vasiljevic,Sedrick Keh,Kushal Arora,Achal Dave,Adrien Gaidon,Thomas Kollar
発行日 2024-05-10 17:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク