Structured Packing in LLM Training Improves Long Context Utilization

要約

ロングコンテキストの大規模言語モデルの最近の進歩は大きな注目を集めていますが、実際のアプリケーションではコンテキストの利用が最適ではないことがよくあります。
この研究では、意味論的な相互依存性を強化するためのトレーニング データの構造化について調査し、このアプローチがコンテキストの利用を効果的に向上させることを示しています。
この目的を達成するために、Structured Packing for Long Context (SPLiCe) メソッドを導入します。このメソッドは、検索を利用して、相互に関連するドキュメントを照合して、長く一貫したトレーニング サンプルを作成します。
当社では、3B、7B、13B などのさまざまなサイズのモデルにわたって SPLiCe が経験的に検証され、Qasper や HotpotQA などのロングコンテキスト タスクでパフォーマンスの向上が実現されています。
驚くべきことに、SPLiCe を使用した簡単な微調整でも、これらの利点を実現するには十分です。
さらに、SPLiCe は、大規模モデルでよく見られる中間喪失現象を効果的に軽減します。
SPLiCe の包括的な分析により、その設計上の選択が検討され、興味深い伝達効果が明らかになりました。
たとえば、プログラミング コードのトレーニングにより、自然言語タスクのパフォーマンスが向上します。

要約(オリジナル)

Recent advancements in long-context large language models have attracted significant attention, yet their practical applications often suffer from suboptimal context utilization. This study investigates structuring training data to enhance semantic interdependence, demonstrating that this approach effectively improves context utilization. To this end, we introduce the Structured Packing for Long Context (SPLiCe) method, which utilizes retrieval to collate mutually relevant documents into long and coherent training examples. We validate SPLiCe empirically across models of varying sizes — 3B, 7B, and 13B — achieving improved performance in long-context tasks, such as Qasper and HotpotQA. Remarkably, even brief fine-tuning with SPLiCe is sufficient to realize these benefits. Additionally, SPLiCe effectively mitigates the lost-in-middle phenomenon often observed in large models. Our comprehensive analysis of SPLiCe explores its design choices and reveals intriguing transfer effects; for instance, training on programming code enhances performance on natural language tasks.

arxiv情報

著者 Konrad Staniszewski,Szymon Tworkowski,Sebastian Jaszczur,Yu Zhao,Henryk Michalewski,Łukasz Kuciński,Piotr Miłoś
発行日 2024-06-24 16:10:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク