Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning

要約

大規模な言語モデル(LLMS)のロングコンテキストモデリングは、多くの現実世界ユースケースがドキュメントなどのより長い入力よりも推論を必要とするため、最近の研究の重要な分野です。
長いコンテキストのモデリングに関する研究の焦点は、位置をモデル化する方法に関するものであり、指導チューニングなどの言語モデリングの他の重要な側面についてはほとんど調査されていません。
長いコンテキストトレーニングの例は、作成と使用に挑戦的で高価です。
この論文では、長いコンテキスト事前訓練モデルのトレーニング後の段階の命令データを設計する方法を調査します。トレーニング後の最適で効率的なトレーニングに必要なコンテキストの量とタイプのタイプ。
私たちの制御された研究は、短いコンテキストで命令調整されたモデルがより長いコンテキストに効果的に一般化すると同時に、命令の難易度やコンテキスト構成などの他の重要な要因を特定できることを明らかにしています。
これらの調査結果に基づいて、既製のLLMSを活用して高品質の命令回答ペアの拡張された背景コンテキストを生成する新しいデータ合成フレームワークであるコンテキスト合成を提案します。
ドキュメントレベルのベンチマーク(Longbench)の実験結果は、提案されたアプローチが以前の命令合成アプローチよりも優れており、人間が解決した長いコンテキスト命令データのパフォーマンスに近づくことを示しています。
このプロジェクトは、https://github.com/njunlp/context-synthesisで入手できます。

要約(オリジナル)

Long-context modelling for large language models (LLMs) has been a key area of recent research because many real world use cases require reasoning over longer inputs such as documents. The focus of research into modelling long context has been on how to model position and there has been little investigation into other important aspects of language modelling such as instruction tuning. Long context training examples are challenging and expensive to create and use. In this paper, we investigate how to design instruction data for the post-training phase of a long context pre-trained model: how much and what type of context is needed for optimal and efficient post-training. Our controlled study reveals that models instruction-tuned on short contexts can effectively generalize to longer ones, while also identifying other critical factors such as instruction difficulty and context composition. Based on these findings, we propose context synthesis, a novel data synthesis framework that leverages off-the-shelf LLMs to generate extended background contexts for high-quality instruction-answer pairs. Experiment results on the document-level benchmark (LongBench) demonstrate that our proposed approach outperforms previous instruction synthesis approaches and comes close to the performance of human-annotated long-context instruction data. The project will be available at: https://github.com/NJUNLP/context-synthesis.

arxiv情報

著者 Wenhao Zhu,Pinzhen Chen,Hanxu Hu,Shujian Huang,Fei Yuan,Jiajun Chen,Alexandra Birch
発行日 2025-02-21 17:02:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク