Structured Packing in LLM Training Improves Long Context Utilization

要約

ロングコンテキスト大規模言語モデル (LCLM) の最近の進歩は、特に科学研究論文のクエリなどのアプリケーションで大きな関心を集めています。
ただし、コンテキストの利用が不適切なため、その可能性が制限されることがよくあります。
私たちは、典型的なトレーニング データに長距離の意味論的な依存関係が存在しないことが主な障害であると特定しています。
これに対処するために、関連ドキュメントをトレーニング入力に頻繁に組み込むことの利点を詳しく掘り下げます。
コード データの固有のディレクトリ構造をトレーニング サンプルのソースとして使用し、コーディングに関係のないタスクであっても、複雑さが改善されることを実証します。
これらの調査結果に基づいて、より広範囲に焦点を当てた Structured Packing for Long Context (SPLiCe) を紹介します。
SPLiCe は、最も相互に関連するドキュメントを単一のトレーニング コンテキストに照合する検索方法を使用して、トレーニング サンプルを作成する革新的な方法です。
私たちの結果は、\method{} がモデルのパフォーマンスを向上させ、長いコンテキストをより適切に活用するように大規模なモデルをトレーニングするために使用できることを示しています。
私たちは大規模な 300 億ドルのモデルをトレーニングすることで結果を検証し、複雑さの改善と下流タスクでのロングコンテキストのパフォーマンスの向上の両方を示しました。

要約(オリジナル)

Recent advances in long-context Large Language Models (LCLMs) have generated significant interest, especially in applications such as querying scientific research papers. However, their potential is often limited by inadequate context utilization. We identify the absence of long-range semantic dependencies in typical training data as a primary hindrance. To address this, we delve into the benefits of frequently incorporating related documents into training inputs. Using the inherent directory structure of code data as a source of training examples, we demonstrate improvements in perplexity, even for tasks unrelated to coding. Building on these findings, but with a broader focus, we introduce Structured Packing for Long Context (SPLiCe). SPLiCe is an innovative method for creating training examples by using a retrieval method to collate the most mutually relevant documents into a single training context. Our results indicate that \method{} enhances model performance and can be used to train large models to utilize long contexts better. We validate our results by training a large $3$B model, showing both perplexity improvements and better long-context performance on downstream tasks.

arxiv情報

著者 Konrad Staniszewski,Szymon Tworkowski,Sebastian Jaszczur,Henryk Michalewski,Łukasz Kuciński,Piotr Miłoś
発行日 2024-01-02 14:48:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク