LongAttn: Selecting Long-context Training Data via Token-level Attention

要約

大規模な言語モデル(LLMS)の開発により、長いコンテキストの処理において大幅な進歩が必要になっています。
長いコンテキスト機能を強化するには、長距離依存関係を備えた高品質のトレーニングデータを構築することが重要です。
長いコンテキストデータを選択する既存の方法は、多くの場合、文レベルの分析に依存しています。これは、パフォーマンスと効率の両方で大幅に最適化できます。
この論文では、データの長距離依存関係を測定するためにLLMSの自己関節メカニズムを活用する新しいトークンレベルのフレームワークであるLongattnを提案します。
トークンレベルの依存関係強度と分布トークンスコアの均一性を計算することにより、Longattnは長距離依存関係を効果的に定量化し、より正確で効率的なデータ選択を可能にします。
オープンソースの長いコンテキストデータセット(ARXIV、ブック、コード)からLongABC-32Kをフィルタリングします。
包括的な実験を通じて、Longattnはその優れた効果、スケーラビリティ、および効率性を実証しました。
長いコンテキストデータの将来の研究を容易にするために、コードと高品質の長いコンテストトレーニングデータLongABC-32Kをリリースしました。

要約(オリジナル)

With the development of large language models (LLMs), there has been an increasing need for significant advancements in handling long contexts. To enhance long-context capabilities, constructing high-quality training data with long-range dependencies is crucial. Existing methods to select long-context data often rely on sentence-level analysis, which can be greatly optimized in both performance and efficiency. In this paper, we propose a novel token-level framework, LongAttn, which leverages the self-attention mechanism of LLMs to measure the long-range dependencies for the data. By calculating token-level dependency strength and distribution uniformity of token scores, LongAttn effectively quantifies long-range dependencies, enabling more accurate and efficient data selection. We filter LongABC-32K from open-source long-context datasets (ArXiv, Book, and Code). Through our comprehensive experiments, LongAttn has demonstrated its excellent effectiveness, scalability, and efficiency. To facilitate future research in long-context data, we released our code and the high-quality long-context training data LongABC-32K.

arxiv情報

著者 Longyun Wu,Dawei Zhu,Guangxiang Zhao,Zhuocheng Yu,Junfeng Ran,Xiangyu Wong,Lin Sun,Sujian Li
発行日 2025-02-27 14:50:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク