要約
最近のロングコンテクスト大規模言語モデルの開発は大きな注目を集めている。しかし、その実世界での応用は、非効率的な文脈情報の利用によって妨げられることが多い。本研究では、意味的な相互依存性を高めるために学習データを構造化することが、コンテキスト利用を最適化するための効果的な戦略であることを示す。この目的のために、情報検索法を用いて相互に関連する文書を単一の訓練コンテキストに照合することにより訓練例を作成する手法である、Structured Packing for Long Context (SPLiCe)を紹介する。SPLiCeを$3$Bと$7$Bの大規模モデルで実証的に検証し、パープレキシティの改善と下流タスクでのロングコンテキストの利用率の向上を示す。驚くべきことに、SPLiCeを用いた比較的短時間の微調整で、これらの利点を達成することができる。さらに、SPLiCeの包括的な研究により、コードデータでの学習がテキストデータでの当惑度の改善につながるなど、興味深い伝達効果が明らかになった。
要約(オリジナル)
Recent developments in long-context large language models have attracted considerable attention. Yet, their real-world applications are often hindered by ineffective context information use. This work shows that structuring training data to increase semantic interdependence is an effective strategy for optimizing context utilization. To this end, we introduce Structured Packing for Long Context (SPLiCe), a method for creating training examples by using information retrieval methods to collate mutually relevant documents into a single training context. We empirically validate SPLiCe on large $3$B and $7$B models, showing perplexity improvements and better long-context utilization on downstream tasks. Remarkably, already relatively short fine-tuning with SPLiCe is enough to attain these benefits. Additionally, the comprehensive study of SPLiCe reveals intriguing transfer effects such as training on code data leading to perplexity improvements on text data.
arxiv情報
| 著者 | Konrad Staniszewski,Szymon Tworkowski,Yu Zhao,Sebastian Jaszczur,Henryk Michalewski,Łukasz Kuciński,Piotr Miłoś |
| 発行日 | 2024-04-03 17:35:11+00:00 |
| arxivサイト | arxiv_id(pdf) |