Training With ‘Paraphrasing the Original Text’ Improves Long-Context Performance

要約

大規模言語モデル (LLM) が進化し続けるにつれて、長いコンテキストの入力を処理するように設計されたモデルが増えています。
この進歩にもかかわらず、それらのほとんどは依然として、長いコンテキストのタスクを正確に処理するという課題に直面しており、多くの場合、「途中で失われた」問題が発生します。
私たちは、不十分な検索機能がこの問題の重要な理由の 1 つであると認識しています。
この課題に取り組むために、私たちは、長いコンテキストから重要な情報を抽出する LLM の能力を強化することを目的として、長いコンテキストのタスク用のトレーニング データを設計する新しいアプローチを提案します。
特に、トレーニング サンプルの答えを構築し、モデルを微調整する際に、「原文の言い換え」という追加の部分を組み込んでいます。
Llama シリーズと Qwen シリーズのモデルを使用して LongBench と NaturalQuestions マルチドキュメント QA データセットを実験したところ、私たちの方法は平均スコアでそれぞれ最大 8.48% と 4.48% の向上を達成し、長時間にわたるモデルのパフォーマンス向上に有効であることを示しました。
コンテキストタスク。
モデルとトレーニング データは HuggingFace (https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k) で公開されています。

要約(オリジナル)

As Large Language Models (LLMs) continue to evolve, more are being designed to handle long-context inputs. Despite this advancement, most of them still face challenges in accurately handling long-context tasks, often showing the ‘lost in the middle’ issue. We identify that insufficient retrieval capability is one of the important reasons for this issue. To tackle this challenge, we propose a novel approach to design training data for long-context tasks, aiming at augmenting LLMs’ proficiency in extracting key information from long context. Specially, we incorporate an additional part named ‘paraphrasing the original text’ when constructing the answer of training samples and then fine-tuning the model. Experimenting on LongBench and NaturalQuestions Multi-document-QA dataset with models of Llama and Qwen series, our method achieves an improvement of up to 8.48% and 4.48% in average scores, respectively, showing effectiveness in improving the model’ s performance on long-context tasks. The model and training data have been made available on HuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k).

arxiv情報

著者 Yijiong Yu,Yongfeng Huang,Zhixiao Qi,Zhe Zhou
発行日 2024-08-21 09:31:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク