SkyLadder: Better and Faster Pretraining via Context Window Scheduling

要約

LLM Pretrainingの最近の進歩により、より長いシーケンスを処理するために、増え続けるコンテキストウィンドウが特徴です。
しかし、私たちのパイロット研究は、より短いコンテキストウィンドウで前処理されたモデルが、固定トークン予算の下で一貫して長いコンテキストのカウンターパートを上回ることを明らかにしています。
この発見は、長いコンテキストの能力のバランスをより良くするために、最適なコンテキストウィンドウスケジューリング戦略を探求する動機付けです。
この目的のために、Skyladderを提案します。Skyladderは、コンテキストウィンドウの遷移を短く実装するシンプルで効果的なアプローチです。
SkylAdderは、長いコンテキストタスクでベースラインの結果を一致させるか、それを超えながら、強力な標準ベンチマークパフォーマンスを保持します。
広範な実験を通じて、100Bトークンの1Bパラメーターモデル(最大32Kコンテキスト)と3Bパラメーターモデル(8Kコンテキスト)を事前訓練し、スカイラダーが一般的なベンチマークで最大3.7%の一貫したゲインを生成し、ベースラインと比較して最大22%のトレーニング速度を達成することを実証します。
コードはhttps://github.com/sail-sg/skyladderにあります。

要約(オリジナル)

Recent advancements in LLM pretraining have featured ever-expanding context windows to process longer sequences. However, our pilot study reveals that models pretrained with shorter context windows consistently outperform their long-context counterparts under a fixed token budget. This finding motivates us to explore an optimal context window scheduling strategy to better balance long-context capability with pretraining efficiency. To this end, we propose SkyLadder, a simple yet effective approach that implements a short-to-long context window transition. SkyLadder preserves strong standard benchmark performance, while matching or exceeding baseline results on long context tasks. Through extensive experiments, we pre-train 1B-parameter models (up to 32K context) and 3B-parameter models (8K context) on 100B tokens, demonstrating that SkyLadder yields consistent gains of up to 3.7% on common benchmarks, while achieving up to 22% faster training speeds compared to baselines. The code is at https://github.com/sail-sg/SkyLadder.

arxiv情報

著者 Tongyao Zhu,Qian Liu,Haonan Wang,Shiqi Chen,Xiangming Gu,Tianyu Pang,Min-Yen Kan
発行日 2025-03-19 17:31:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク