要約
大規模言語モデル (LLM) の最近の進歩により、長いコンテキストを処理する機能が大幅に強化されましたが、整列された長い出力の生成には依然として顕著なギャップが残っています。
この制限は、トレーニング前に長いテキストを生成するための効果的な指示が不足しており、トレーニング後のデータが主に短いクエリと応答のペアで構成されているというトレーニング ギャップに起因します。
命令の逆変換や動作の模倣などの現在のアプローチは、データ品質、著作権の問題、独自モデルの使用に関する制約などの課題に直面しています。
このペーパーでは、補助データや独自のモデルを必要とせず、LLM の固有の知識とスキルのみを活用する、Self-Lengthen と呼ばれる革新的な反復トレーニング フレームワークを紹介します。
フレームワークは、ジェネレーターとエクステンダーの 2 つの役割で構成されます。
Generator は初期応答を生成し、その後 Extender によって分割および展開されます。
このプロセスにより、新しいより長い応答が生成され、ジェネレーターとエクステンダーの両方を反復的にトレーニングするために使用されます。
このプロセスを通じて、モデルは、ますます長い応答を処理できるように段階的にトレーニングされます。
ベンチマークと人間による評価の実験では、Self-Lengthen が Qwen2 や LLaMA3 などのトップ オープンソース LLM に適用された場合、長文生成において既存の方法よりも優れたパフォーマンスを発揮することが示されています。
私たちのコードは https://github.com/QwenLM/Self-Lengthen で公開されています。
要約(オリジナル)
Recent advancements in Large Language Models (LLMs) have significantly enhanced their ability to process long contexts, yet a notable gap remains in generating long, aligned outputs. This limitation stems from a training gap where pre-training lacks effective instructions for long-text generation, and post-training data primarily consists of short query-response pairs. Current approaches, such as instruction backtranslation and behavior imitation, face challenges including data quality, copyright issues, and constraints on proprietary model usage. In this paper, we introduce an innovative iterative training framework called Self-Lengthen that leverages only the intrinsic knowledge and skills of LLMs without the need for auxiliary data or proprietary models. The framework consists of two roles: the Generator and the Extender. The Generator produces the initial response, which is then split and expanded by the Extender. This process results in a new, longer response, which is used to train both the Generator and the Extender iteratively. Through this process, the models are progressively trained to handle increasingly longer responses. Experiments on benchmarks and human evaluations show that Self-Lengthen outperforms existing methods in long-text generation, when applied to top open-source LLMs such as Qwen2 and LLaMA3. Our code is publicly available at https://github.com/QwenLM/Self-Lengthen.
arxiv情報
著者 | Shanghaoran Quan,Tianyi Tang,Bowen Yu,An Yang,Dayiheng Liu,Bofei Gao,Jianhong Tu,Yichang Zhang,Jingren Zhou,Junyang Lin |
発行日 | 2024-10-31 13:47:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google