LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

要約

現在のロングコンテキスト大規模言語モデル (LLM) は、最大 100,000 トークンの入力を処理できますが、2,000 ワードという控えめな長さでも、出力を生成するのは困難です。
制御された実験を通じて、モデルの有効世代長は教師あり微調整 (SFT) 中に観察されたサンプルによって本質的に制限されることがわかりました。
言い換えれば、その出力制限は、既存の SFT データセットに長い出力サンプルが不足していることに起因します。
これに対処するために、超長時間の生成タスクをサブタスクに分解するエージェントベースのパイプラインである AgentWrite を導入し、既製の LLM で 20,000 ワードを超えるコヒーレントな出力を生成できるようにします。
AgentWrite を活用して、出力長が 2k ~ 32k ワードの 6,000 個の SFT データを含むデータセットである LongWriter-6k を構築します。
このデータセットをモデルのトレーニングに組み込むことで、出力の品質を維持しながら、既存のモデルの出力長を 10,000 ワード以上に拡張することに成功しました。
また、超長時間生成機能を評価するための包括的なベンチマークである LongBench-Write も開発しています。
DPO を通じてさらに改良された当社の 9B パラメータ モデルは、このベンチマークで最先端のパフォーマンスを達成し、はるかに大規模な独自モデルをも上回ります。
一般に、私たちの研究は、既存のロング コンテキスト LLM がより大きな出力ウィンドウの可能性をすでに備えていることを示しています。必要なのは、この機能を解放するためにモデル アライメント中に拡張出力を含むデータだけです。
私たちのコードとモデルは https://github.com/THUDM/LongWriter にあります。

要約(オリジナル)

Current long context large language models (LLMs) can process inputs up to 100,000 tokens, yet struggle to generate outputs exceeding even a modest length of 2,000 words. Through controlled experiments, we find that the model’s effective generation length is inherently bounded by the sample it has seen during supervised fine-tuning (SFT). In other words, their output limitation is due to the scarcity of long-output examples in existing SFT datasets. To address this, we introduce AgentWrite, an agent-based pipeline that decomposes ultra-long generation tasks into subtasks, enabling off-the-shelf LLMs to generate coherent outputs exceeding 20,000 words. Leveraging AgentWrite, we construct LongWriter-6k, a dataset containing 6,000 SFT data with output lengths ranging from 2k to 32k words. By incorporating this dataset into model training, we successfully scale the output length of existing models to over 10,000 words while maintaining output quality. We also develop LongBench-Write, a comprehensive benchmark for evaluating ultra-long generation capabilities. Our 9B parameter model, further improved through DPO, achieves state-of-the-art performance on this benchmark, surpassing even much larger proprietary models. In general, our work demonstrates that existing long context LLM already possesses the potential for a larger output window–all you need is data with extended output during model alignment to unlock this capability. Our code & models are at: https://github.com/THUDM/LongWriter.

arxiv情報

著者 Yushi Bai,Jiajie Zhang,Xin Lv,Linzhi Zheng,Siqi Zhu,Lei Hou,Yuxiao Dong,Jie Tang,Juanzi Li
発行日 2024-08-13 17:46:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク