SWAN-GPT: An Efficient and Scalable Approach for Long-Context Language Modeling

要約

トレーニング中に見られるものよりも大幅に長いシーケンスの長さに堅牢に一般化するデコーダーのみの変圧器アーキテクチャを紹介します。
私たちのモデルであるSwan-Gptは、位置エンコーディング(NOPE)のない層と、ロータリー位置エンコーディング(SWAロープ)を備えたスライドウィンドウの注意層を挿入します。
実験は、追加の長いコンテキストトレーニングを必要とせずに、トレーニング長よりもかなり長いシーケンス長の強力なパフォーマンスを示しています。
この堅牢な長さの外挿は、推論中の注意スコアの直接的な動的スケーリングによって強化された、新しいアーキテクチャを通じて達成されます。
さらに、SWAN-GPTは標準のGPTアーキテクチャよりも計算効率が高く、より安価なトレーニングとより高いスループットをもたらします。
さらに、既存の事前に訓練されたデコーダーのみのモデルを最小限の継続的なトレーニングで効率的にSWANアーキテクチャに変換できることを実証し、より長いコンテキストを可能にします。
全体として、私たちの作品は、堅牢で効率的な方法で、言語モデルをより長いコンテキストにスケーリングするための効果的なアプローチを提示します。

要約(オリジナル)

We present a decoder-only Transformer architecture that robustly generalizes to sequence lengths substantially longer than those seen during training. Our model, SWAN-GPT, interleaves layers without positional encodings (NoPE) and sliding-window attention layers equipped with rotary positional encodings (SWA-RoPE). Experiments demonstrate strong performance on sequence lengths significantly longer than the training length without the need for additional long-context training. This robust length extrapolation is achieved through our novel architecture, enhanced by a straightforward dynamic scaling of attention scores during inference. In addition, SWAN-GPT is more computationally efficient than standard GPT architectures, resulting in cheaper training and higher throughput. Further, we demonstrate that existing pre-trained decoder-only models can be efficiently converted to the SWAN architecture with minimal continued training, enabling longer contexts. Overall, our work presents an effective approach for scaling language models to longer contexts in a robust and efficient manner.

arxiv情報

著者 Krishna C. Puvvada,Faisal Ladhak,Santiago Akle Serrano,Cheng-Ping Hsieh,Shantanu Acharya,Somshubra Majumdar,Fei Jia,Samuel Kriman,Simeng Sun,Dima Rekesh,Boris Ginsburg
発行日 2025-04-11 17:33:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク