Structured Packing in LLM Training Improves Long Context Utilization

要約

ロングコンテキストの大規模言語モデルの最近の開発は、かなりの注目を集めています。
しかし、実際のアプリケーションは、非効率的なコンテキスト情報の使用によって妨げられることがよくあります。
この研究は、トレーニング データを構造化してセマンティックな相互依存性を高めることが、コンテキストの利用を最適化するための効果的な戦略であることを示しています。
この目的を達成するために、相互に関連するドキュメントを単一のトレーニング コンテキストに照合する情報検索メソッドを使用してトレーニング サンプルを作成する方法である、Structured Packing for Long Context (SPLiCe) を導入します。
私たちは大規模な $3$B モデルと $7$B モデルで SPLiCe を経験的に検証し、ダウンストリーム タスクでの複雑性の改善とロング コンテキストの使用率の向上を示しています。
驚くべきことに、SPLiCe を使用した比較的短時間の微調整だけで、これらの利点を得るのに十分です。
さらに、SPLiCe の包括的な研究により、テキスト データの複雑さの改善につながるコード データのトレーニングなど、興味深い転送効果が明らかになりました。

要約(オリジナル)

Recent developments in long-context large language models have attracted considerable attention. Yet, their real-world applications are often hindered by ineffective context information use. This work shows that structuring training data to increase semantic interdependence is an effective strategy for optimizing context utilization. To this end, we introduce Structured Packing for Long Context (SPLiCe), a method for creating training examples by using information retrieval methods to collate mutually relevant documents into a single training context. We empirically validate SPLiCe on large $3$B and $7$B models, showing perplexity improvements and better long-context utilization on downstream tasks. Remarkably, already relatively short fine-tuning with SPLiCe is enough to attain these benefits. Additionally, the comprehensive study of SPLiCe reveals intriguing transfer effects such as training on code data leading to perplexity improvements on text data.

arxiv情報

著者 Konrad Staniszewski,Szymon Tworkowski,Yu Zhao,Sebastian Jaszczur,Henryk Michalewski,Łukasz Kuciński,Piotr Miłoś
発行日 2024-04-26 08:23:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク