A Controlled Study on Long Context Extension and Generalization in LLMs

要約

広範なテキストの理解とコンテキスト内の学習には、完全なドキュメントのコンテキストを利用する言語モデルが必要です。
長いコンテキストのモデルを直接トレーニングすることに関連する実装上の課題のため、長いコンテキストを処理できるようにモデルを拡張するための多くの方法が提案されています。
しかし、データとモデルクラスの違いにより、これらのアプローチを比較することは困難であり、ロングコンテキストのパフォーマンスをどのように評価するか、またそれが標準の評価と異なるかどうかについて不確実性が生じています。
私たちは、一貫した基本モデルと拡張データを利用して、標準化された評価を備えた拡張メソッドの制御されたプロトコルを実装します。
私たちの研究では、ロングコンテキストの動作についていくつかの洞察が得られます。
まず、より長いコンテキストのタスクにおいても、汎用パフォーマンス指標としてのパープレキシティの重要な役割を再確認します。
第 2 に、現在の近似注意手法は、長いコンテキストのタスクでは系統的にパフォーマンスが劣ることがわかります。
最後に、正確な微調整ベースの方法は拡張範囲内では一般に効果的ですが、外挿は依然として困難であることを確認します。
すべてのコードベース、モデル、チェックポイントはオープンソースで利用できるようになり、透明性が促進され、AI 開発のこの重要な分野でのさらなる研究が促進されます。

要約(オリジナル)

Broad textual understanding and in-context learning require language models that utilize full document contexts. Due to the implementation challenges associated with directly training long-context models, many methods have been proposed for extending models to handle long contexts. However, owing to differences in data and model classes, it has been challenging to compare these approaches, leading to uncertainty as to how to evaluate long-context performance and whether it differs from standard evaluation. We implement a controlled protocol for extension methods with a standardized evaluation, utilizing consistent base models and extension data. Our study yields several insights into long-context behavior. First, we reaffirm the critical role of perplexity as a general-purpose performance indicator even in longer-context tasks. Second, we find that current approximate attention methods systematically underperform across long-context tasks. Finally, we confirm that exact fine-tuning based methods are generally effective within the range of their extension, whereas extrapolation remains challenging. All codebases, models, and checkpoints will be made available open-source, promoting transparency and facilitating further research in this critical area of AI development.

arxiv情報

著者 Yi Lu,Jing Nathan Yan,Songlin Yang,Justin T. Chiu,Siyu Ren,Fei Yuan,Wenting Zhao,Zhiyong Wu,Alexander M. Rush
発行日 2024-09-18 17:53:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク