Data Engineering for Scaling Language Models to 128K Context

要約

私たちは、データ エンジニアリングに焦点を当てて、言語モデルのコンテキスト長を 128K までスケーリングするための継続的な事前トレーニング レシピを研究しています。
我々は、長いコンテキストのモデリング、特に \textit{任意の入力位置で情報を利用する能力} は、大規模な事前学習を通じてほとんどすでに獲得されている能力であり、この能力は、従来よりも大幅に長いコンテキストに容易に拡張できると仮説を立てます。
適切なデータ混合に対する軽量の継続的な事前トレーニングを通じて、トレーニング中 (例: 4K ~ 128K) に見られます。
継続的な事前トレーニングのためのデータの \textit{量} と \textit{質} を調査します: (1) 量については、モデルが 128K コンテキスト内のどこにでも情報を取得できるようにするには、5 億から 50 億のトークンで十分であることを示します。
;
(2) 品質に関しては、結果は \textit{ドメインバランス} と \textit{長さのアップサンプリング} を同等に強調しています。
具体的には、書籍などの特定のドメインで長いデータを単純にアップサンプリングすることは、既存の研究でよく行われていることであり、次善のパフォーマンスをもたらし、バランスの取れたドメインの混合が重要であることがわかりました。
このようなデータの 1B ~ 5B トークンに対する完全なモデルの継続的な事前トレーニングが、言語モデルのコンテキスト長を 128K にスケールするための効果的かつ手頃な戦略であることを実証します。
私たちのレシピは、強力なオープンソースのロングコンテキスト モデルを上回り、GPT-4 128K のようなフロンティア モデルとの差を縮めます。

要約(オリジナル)

We study the continual pretraining recipe for scaling language models’ context lengths to 128K, with a focus on data engineering. We hypothesize that long context modeling, in particular \textit{the ability to utilize information at arbitrary input locations}, is a capability that is mostly already acquired through large-scale pretraining, and that this capability can be readily extended to contexts substantially longer than seen during training~(e.g., 4K to 128K) through lightweight continual pretraining on appropriate data mixture. We investigate the \textit{quantity} and \textit{quality} of the data for continual pretraining: (1) for quantity, we show that 500 million to 5 billion tokens are enough to enable the model to retrieve information anywhere within the 128K context; (2) for quality, our results equally emphasize \textit{domain balance} and \textit{length upsampling}. Concretely, we find that naively upsampling longer data on certain domains like books, a common practice of existing work, gives suboptimal performance, and that a balanced domain mixture is important. We demonstrate that continual pretraining of the full model on 1B-5B tokens of such data is an effective and affordable strategy for scaling the context length of language models to 128K. Our recipe outperforms strong open-source long-context models and closes the gap to frontier models like GPT-4 128K.

arxiv情報

著者 Yao Fu,Rameswar Panda,Xinyao Niu,Xiang Yue,Hannaneh Hajishirzi,Yoon Kim,Hao Peng
発行日 2024-02-15 18:19:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク