Quest: Query-centric Data Synthesis Approach for Long-context Scaling of Large Language Model

要約

最初は制限されたコンテキスト長で事前トレーニングされた大規模な言語モデルは、拡張されたコンテキストを使用してコーパスでトレーニングを続けることで、より長いテキストをより適切に処理できるようになります。
ただし、長いドキュメントが不足しており、異なるドメインに不均等に分散しているため、効果的な長いコンテキスト データを取得することは困難です。
この問題に対処するために、我々は、Quest と略されるクエリ中心のデータ合成手法を提案します。
Quest は、同様のクエリによって取得されたドキュメントは関連性はあるものの冗長性が低いという観察に基づいた解釈可能な方法であり、長いコンテキスト データの合成に適しています。
この方法はスケーラブルでもあり、大量の長いコンテキスト データを構築できます。
Quest を使用して、最大 128k コンテキスト長のロングコンテキスト データセットを合成し、複数のロングコンテキスト ベンチマーク データセットで他のデータ合成方法を大幅に上回りました。
さらに、Quest メソッドがスケーリング則の実験を通じて予測可能であることをさらに検証し、ロングコンテキスト モデルを進歩させるための信頼できるソリューションになります。

要約(オリジナル)

Large language models, initially pre-trained with a limited context length, can better handle longer texts by continuing training on a corpus with extended contexts. However, obtaining effective long-context data is challenging due to the scarcity and uneven distribution of long documents across different domains. To address this issue, we propose a Query-centric data synthesis method, abbreviated as Quest. Quest is an interpretable method based on the observation that documents retrieved by similar queries are relevant but low-redundant, thus well-suited for synthesizing long-context data. The method is also scalable and capable of constructing large amounts of long-context data. Using Quest, we synthesize a long-context dataset up to 128k context length, significantly outperforming other data synthesis methods on multiple long-context benchmark datasets. In addition, we further verify that the Quest method is predictable through scaling law experiments, making it a reliable solution for advancing long-context models.

arxiv情報

著者 Chaochen Gao,Xing Wu,Qi Fu,Songlin Hu
発行日 2024-09-24 09:06:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク