Efficient Pretraining Length Scaling

要約

大規模な言語モデルの最近の進歩は、トレーニング後の長さのスケーリングの有効性を実証していますが、トレーニング前の可能性は既存のままです。
推論効率を維持しながら、トレーニング前に効率的な長さのスケーリングを可能にする新しいフレームワークである、平行した非表示デコード変圧器(\ textIT {phd}トランスフォーマー)を提示します。
\ textIT {phd} – トランスフォーマーは、元のトークンと非表示のデコードトークンを区別する革新的なKVキャッシュ管理戦略を通じてこれを達成します。
長距離依存性のために元のトークンのKVキャッシュのみを保持し、使用後すぐに隠されたデコードトークンを廃棄することにより、私たちのアプローチは、効果的な長さのスケーリングを可能にしながら、バニラトランスと同じKVキャッシュサイズを維持します。
パフォーマンスをさらに向上させるために、2つの最適化されたバリアントを導入します。\ textit {phd-swa}は、ローカル依存関係を保持するためにスライディングウィンドウの注意を採用し、\ textit {phd-cswa}はチャンクワイズのスライドウィンドウの注意を実現して、充填前の線形成長を排除します。
広範な実験は、複数のベンチマークにわたって一貫した改善を示しています。

要約(オリジナル)

Recent advances in large language models have demonstrated the effectiveness of length scaling during post-training, yet its potential in pre-training remains underexplored. We present the Parallel Hidden Decoding Transformer (\textit{PHD}-Transformer), a novel framework that enables efficient length scaling during pre-training while maintaining inference efficiency. \textit{PHD}-Transformer achieves this through an innovative KV cache management strategy that distinguishes between original tokens and hidden decoding tokens. By retaining only the KV cache of original tokens for long-range dependencies while immediately discarding hidden decoding tokens after use, our approach maintains the same KV cache size as the vanilla transformer while enabling effective length scaling. To further enhance performance, we introduce two optimized variants: \textit{PHD-SWA} employs sliding window attention to preserve local dependencies, while \textit{PHD-CSWA} implements chunk-wise sliding window attention to eliminate linear growth in pre-filling time. Extensive experiments demonstrate consistent improvements across multiple benchmarks.

arxiv情報

著者 Bohong Wu,Shen Yan,Sijun Zhang,Jianqiao Lu,Yutao Zeng,Ya Wang,Xun Zhou
発行日 2025-04-21 09:41:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク