LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

要約

大きなコンテキスト ウィンドウは、大規模言語モデル (LLM) で望ましい機能です。
ただし、微調整コストの高さ、長いテキストの不足、新しいトークン位置によってもたらされる壊滅的な値により、現在の拡張コンテキスト ウィンドウは約 128,000 トークンに制限されています。
このペーパーでは、元の短いコンテキスト ウィンドウでのパフォーマンスを維持しながら、256,000 のトレーニング長内で最大 1,000 の微調整ステップのみで、事前トレーニングされた LLM のコンテキスト ウィンドウを 2048,000 トークンという驚異的な数に初めて拡張する LongRoPE を紹介します。

これは 3 つの主要な革新によって実現されます。(i) 効率的な検索を通じて位置補間における 2 つの形式の不均一性を特定して利用し、微調整のためのより適切な初期化を提供し、微調整以外のシナリオで 8 倍の拡張を可能にします。
(ii) 最初に 256k の長さの LLM を微調整し、次に微調整された拡張 LLM で 2 回目の位置補間を実行して 2048k コンテキスト ウィンドウを達成する、プログレッシブ拡張戦略を導入します。
(iii) 短いコンテキスト ウィンドウのパフォーマンスを回復するために、8k の長さで LongRoPE を再調整します。
さまざまなタスクにわたる LLaMA2 と Mistral の広範な実験により、私たちの手法の有効性が実証されました。
LongRoPE を介して拡張されたモデルは、位置埋め込みにわずかな変更を加えて元のアーキテクチャを保持し、既存の最適化のほとんどを再利用できます。

要約(オリジナル)

Large context window is a desirable feature in large language models (LLMs). However, due to high fine-tuning costs, scarcity of long texts, and catastrophic values introduced by new token positions, current extended context windows are limited to around 128k tokens. This paper introduces LongRoPE that, for the first time, extends the context window of pre-trained LLMs to an impressive 2048k tokens, with up to only 1k fine-tuning steps at within 256k training lengths, while maintaining performance at the original short context window. This is achieved by three key innovations: (i) we identify and exploit two forms of non-uniformities in positional interpolation through an efficient search, providing a better initialization for fine-tuning and enabling an 8x extension in non-fine-tuning scenarios; (ii) we introduce a progressive extension strategy that first fine-tunes a 256k length LLM and then conducts a second positional interpolation on the fine-tuned extended LLM to achieve a 2048k context window; (iii) we readjust LongRoPE on 8k length to recover the short context window performance. Extensive experiments on LLaMA2 and Mistral across various tasks demonstrate the effectiveness of our method. Models extended via LongRoPE retain the original architecture with minor modifications to the positional embedding, and can reuse most pre-existing optimizations.

arxiv情報

著者 Yiran Ding,Li Lyna Zhang,Chengruidong Zhang,Yuanyuan Xu,Ning Shang,Jiahang Xu,Fan Yang,Mao Yang
発行日 2024-02-21 12:30:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク