要約
ロングコンテクスト処理は、大規模言語モデルの適用性を制約する重要な能力である。大規模言語モデル(LLM)のロングコンテクスト処理能力を向上させるための様々な手法が存在するが、それらは孤立した形で開発されており、系統的な分析や長所の統合がなされていないため、さらなる発展を妨げている。本論文では、LLMのメモリ増強の観点から既存のロングコンテクスト手法を再定式化する統一フレームワークであるUniMemを紹介する。UniMemは4つの主要な次元によって特徴付けられる:UniMemは、メモリ管理、メモリ書き込み、メモリ読み出し、メモリ注入の4つの主要な次元によって特徴付けられ、様々なロングコンテクスト手法を理解するための体系的な理論を提供する。UniMemに基づいて16の既存の手法を再定式化し、4つの代表的な手法を分析する:Transformer-XL、Memorizing Transformer、RMT、Longformerの4つの代表的な手法をUniMemと等価な形に分析し、その設計原理と強みを明らかにする。これらの分析に基づき、これらのアルゴリズムの長所を統合した革新的なアプローチであるUniMixを提案する。実験結果によれば、UniMixは長い文脈の処理において、ベースラインよりも有意に低いプレプレキシティで優れた性能を達成する。
要約(オリジナル)
Long-context processing is a critical ability that constrains the applicability of large language models. Although there exist various methods devoted to enhancing the long-context processing ability of large language models (LLMs), they are developed in an isolated manner and lack systematic analysis and integration of their strengths, hindering further developments. In this paper, we introduce UniMem, a unified framework that reformulates existing long-context methods from the view of memory augmentation of LLMs. UniMem is characterized by four key dimensions: Memory Management, Memory Writing, Memory Reading, and Memory Injection, providing a systematic theory for understanding various long-context methods. We reformulate 16 existing methods based on UniMem and analyze four representative methods: Transformer-XL, Memorizing Transformer, RMT, and Longformer into equivalent UniMem forms to reveal their design principles and strengths. Based on these analyses, we propose UniMix, an innovative approach that integrates the strengths of these algorithms. Experimental results show that UniMix achieves superior performance in handling long contexts with significantly lower perplexity than baselines.
arxiv情報
著者 | Junjie Fang,Likai Tang,Hongzhe Bi,Yujia Qin,Si Sun,Zhenyu Li,Haolun Li,Yongjian Li,Xin Cong,Yukun Yan,Xiaodong Shi,Sen Song,Yankai Lin,Zhiyuan Liu,Maosong Sun |
発行日 | 2024-02-05 13:47:53+00:00 |
arxivサイト | arxiv_id(pdf) |