Extending Llama-3’s Context Ten-Fold Overnight

要約

QLoRA 微調整により、Llama-3-8B-Instruct のコンテキスト長を 8K から 80K に拡張しました。
トレーニング サイクル全体は非常に効率的であり、1 台の 8xA800 (80G) GPU マシンで 8 時間かかります。
結果として得られたモデルは、NIHS、トピック検索、長い文脈の言語理解など、幅広い評価タスクにわたって優れたパフォーマンスを示します。
一方、短いコンテキストでも元の機能がよく維持されます。
劇的なコンテキスト拡張は主に GPT-4 によって生成されたわずか 3.5K の合成トレーニング サンプルによるものであり、これは LLM が本来持つ (しかし大幅に過小評価されている) 元のコンテキスト長を拡張する可能性を示しています。
実際、コンテキストの長さは、より多くの計算リソースを使用して 80K をはるかに超えて拡張できます。
したがって、チームはコミュニティからの将来の研究を促進するために、リソース全体 (データ、モデル、データ生成パイプライン、トレーニング コードを含む) を公開します: \url{https://github.com/FlagOpen/FlagEmbedding}。

要約(オリジナル)

We extend the context length of Llama-3-8B-Instruct from 8K to 80K via QLoRA fine-tuning. The entire training cycle is super efficient, which takes 8 hours on one 8xA800 (80G) GPU machine. The resulted model exhibits superior performances across a broad range of evaluation tasks, such as NIHS, topic retrieval, and long-context language understanding; meanwhile, it also well preserves the original capability over short contexts. The dramatic context extension is mainly attributed to merely 3.5K synthetic training samples generated by GPT-4 , which indicates the LLMs’ inherent (yet largely underestimated) potential to extend its original context length. In fact, the context length could be extended far beyond 80K with more computation resources. Therefore, the team will publicly release the entire resources (including data, model, data generation pipeline, training code) so as to facilitate the future research from the community: \url{https://github.com/FlagOpen/FlagEmbedding}.

arxiv情報

著者 Peitian Zhang,Ninglu Shao,Zheng Liu,Shitao Xiao,Hongjin Qian,Qiwei Ye,Zhicheng Dou
発行日 2024-04-30 13:25:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク