Effective Long-Context Scaling of Foundation Models

要約

最大 32,768 トークンの効果的なコンテキスト ウィンドウをサポートする一連のロングコンテキスト LLM を紹介します。
私たちのモデル シリーズは、長いトレーニング シーケンスと長いテキストがアップサンプリングされたデータセットを使用した Llama 2 からの継続的な事前トレーニングを通じて構築されています。
私たちは、言語モデリング、合成コンテキスト調査タスク、および幅広い研究ベンチマークについて広範な評価を実行します。
研究ベンチマークでは、当社のモデルは、ほとんどの通常のタスクで一貫した改善を達成し、Llama 2 と比べて長いコンテキストのタスクで大幅な改善を達成しました。特に、人間による注釈付きの長い命令データを必要としないコスト効率の高い命令チューニング手順により、70B バリアントは次のことが可能です。
一連のロングコンテキストタスクにおいて、すでに gpt-3.5-turbo-16k の全体的なパフォーマンスを上回っています。
これらの結果とともに、メソッドの個々のコンポーネントに関する詳細な分析を提供します。
Llama の位置エンコーディングを詳しく調べ、長い依存関係をモデル化する際の限界について説明します。
また、データ ミックスやシーケンス長のトレーニング カリキュラムなど、事前トレーニング プロセスにおけるさまざまな設計選択の影響も調査します。アブレーション実験では、事前トレーニング データセットに豊富な長いテキストがあることが、優れたパフォーマンスを達成するための鍵ではないことが示唆されています。
私たちは、長いコンテキストの継続的な事前トレーニングが、長いシーケンスを使用して最初から事前トレーニングする場合と比較して、より効率的で同様に効果的であることを経験的に検証しています。

要約(オリジナル)

We present a series of long-context LLMs that support effective context windows of up to 32,768 tokens. Our model series are built through continual pretraining from Llama 2 with longer training sequences and on a dataset where long texts are upsampled. We perform extensive evaluation on language modeling, synthetic context probing tasks, and a wide range of research benchmarks. On research benchmarks, our models achieve consistent improvements on most regular tasks and significant improvements on long-context tasks over Llama 2. Notably, with a cost-effective instruction tuning procedure that does not require human-annotated long instruction data, the 70B variant can already surpass gpt-3.5-turbo-16k’s overall performance on a suite of long-context tasks. Alongside these results, we provide an in-depth analysis on the individual components of our method. We delve into Llama’s position encodings and discuss its limitation in modeling long dependencies. We also examine the impact of various design choices in the pretraining process, including the data mix and the training curriculum of sequence lengths — our ablation experiments suggest that having abundant long texts in the pretrain dataset is not the key to achieving strong performance, and we empirically verify that long context continual pretraining is more efficient and similarly effective compared to pretraining from scratch with long sequences.

arxiv情報

著者 Wenhan Xiong,Jingyu Liu,Igor Molybog,Hejia Zhang,Prajjwal Bhargava,Rui Hou,Louis Martin,Rashi Rungta,Karthik Abinav Sankararaman,Barlas Oguz,Madian Khabsa,Han Fang,Yashar Mehdad,Sharan Narang,Kshitiz Malik,Angela Fan,Shruti Bhosale,Sergey Edunov,Mike Lewis,Sinong Wang,Hao Ma
発行日 2023-10-17 17:32:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク