From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data

要約

最近の研究では、大規模言語モデル (LLM) は、長いコンテキストの入力を処理するときに情報を正確に取得し、推論能力を維持するのに苦労していることがわかっています。
これらの制限に対処するために、数値的なキーと値の取得タスクを含む慎重に設計された合成データセットを利用した微調整アプローチを提案します。
GPT-3.5 Turbo や Mistral 7B などのモデルでの実験では、このデータセットで LLM を微調整すると、より長いコンテキスト設定での LLM の情報検索および推論能力が大幅に向上することが実証されました。
我々は、総合的なタスク評価から実際のタスク評価へのスキルの移行を示す、微調整されたモデルの分析を示します (例: GPT-3.5 Turbo の $10$ の位置にある $20$ 文書の MDQA に対する $10.5\%$ の改善)。
また、一般的なベンチマークで微調整された LLM のパフォーマンスはほぼ一定のままですが、他のベースラインのロングコンテキスト拡張データで微調整された LLM は幻覚を助長する可能性があることもわかりました (たとえば、TriviaQA では、合成データで微調整された Mistral 7B はパフォーマンスの低下を引き起こさない一方で、他のベースライン データではパフォーマンスの低下が発生する可能性があります)。
$2.33\%$ から $6.19\%$ の範囲の下落を引き起こします)。
私たちの研究は、より長いコンテキストのタスクにおける LLM のパフォーマンスを向上させるために、合成データを微調整する可能性を強調しています。

要約(オリジナル)

Recent studies have shown that Large Language Models (LLMs) struggle to accurately retrieve information and maintain reasoning capabilities when processing long-context inputs. To address these limitations, we propose a finetuning approach utilizing a carefully designed synthetic dataset comprising numerical key-value retrieval tasks. Our experiments on models like GPT-3.5 Turbo and Mistral 7B demonstrate that finetuning LLMs on this dataset significantly improves LLMs’ information retrieval and reasoning capabilities in longer-context settings. We present an analysis of the finetuned models, illustrating the transfer of skills from synthetic to real task evaluations (e.g., $10.5\%$ improvement on $20$ documents MDQA at position $10$ for GPT-3.5 Turbo). We also find that finetuned LLMs’ performance on general benchmarks remains almost constant while LLMs finetuned on other baseline long-context augmentation data can encourage hallucination (e.g., on TriviaQA, Mistral 7B finetuned on our synthetic data cause no performance drop while other baseline data can cause a drop that ranges from $2.33\%$ to $6.19\%$). Our study highlights the potential of finetuning on synthetic data for improving the performance of LLMs on longer-context tasks.

arxiv情報

著者 Zheyang Xiong,Vasilis Papageorgiou,Kangwook Lee,Dimitris Papailiopoulos
発行日 2024-06-27 16:05:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク