Beyond the Limits: A Survey of Techniques to Extend the Context Length in Large Language Models

要約

最近、大規模言語モデル (LLM) は、コンテキストの理解、論理的推論の実行、応答の生成などの顕著な機能を示しています。
ただし、これは厳しい計算要件とメモリ要件を犠牲にして達成され、長い入力シーケンスを効果的にサポートする能力が妨げられます。
この調査は、LLM のシーケンス長を拡張するために考案された最近の技術と方法の包括的なレビューを提供し、それによって長いコンテキストの理解能力を強化します。
特に、計算要件の比例的な増加を回避しながら、より長いシーケンスの処理を強化するように設計された、位置エンコーディングの変更やアテンション メカニズムの変更など、アーキテクチャの変更を含む幅広い技術をレビューおよび分類します。
この研究で調査された多様な方法論は、LLM のさまざまな段階、つまりトレーニング、微調整、推論にわたって活用できます。
これにより、LLM は拡張シーケンスを効率的に処理できるようになります。
現在の方法論の限界については、将来の研究の方向性についての提案とともに最後のセクションで説明し、LLM の継続的な進歩における系列長の重要性を強調します。

要約(オリジナル)

Recently, large language models (LLMs) have shown remarkable capabilities including understanding context, engaging in logical reasoning, and generating responses. However, this is achieved at the expense of stringent computational and memory requirements, hindering their ability to effectively support long input sequences. This survey provides an inclusive review of the recent techniques and methods devised to extend the sequence length in LLMs, thereby enhancing their capacity for long-context understanding. In particular, we review and categorize a wide range of techniques including architectural modifications, such as modified positional encoding and altered attention mechanisms, which are designed to enhance the processing of longer sequences while avoiding a proportional increase in computational requirements. The diverse methodologies investigated in this study can be leveraged across different phases of LLMs, i.e., training, fine-tuning and inference. This enables LLMs to efficiently process extended sequences. The limitations of the current methodologies is discussed in the last section along with the suggestions for future research directions, underscoring the importance of sequence length in the continued advancement of LLMs.

arxiv情報

著者 Xindi Wang,Mahsa Salmani,Parsa Omidi,Xiangyu Ren,Mehdi Rezagholizadeh,Armaghan Eshaghi
発行日 2024-05-29 13:38:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク