MemLong: Memory-Augmented Retrieval for Long Text Modeling

要約

大規模言語モデル (LLM) の最近の進歩は、さまざまな分野で目覚ましい成功を収めています。
ただし、アテンション メカニズムの二次的な時間と空間の複雑さと、生成中のキー/値キャッシュのメモリ消費量の増大により、LLM にとって長いコンテキストの処理は依然として大きな課題です。
この研究では、MemLong: 長いテキスト生成のためのメモリ拡張検索を紹介します。これは、履歴情報の検索に外部検索ツールを利用することで、長いコンテキスト言語モデリングの機能を強化するように設計された方法です。
MemLong は、微分不可能な「ret-mem」モジュールと、部分的にトレーニング可能なデコーダ専用言語モデルを組み合わせ、セマンティック レベルの関連チャンクを活用する、きめ細かく制御可能な検索アテンション メカニズムを導入します。
複数のロングコンテキスト言語モデリングベンチマークの包括的な評価により、MemLong が他の最先端の LLM よりも一貫して優れていることが実証されました。
さらに重要なのは、MemLong は 1 つの 3090 GPU でコンテキスト長を 4k から 80k まで拡張できることです。
私たちのコードは https://github.com/Bui1dMySea/MemLong で入手できます。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have yielded remarkable success across diverse fields. However, handling long contexts remains a significant challenge for LLMs due to the quadratic time and space complexity of attention mechanisms and the growing memory consumption of the key-value cache during generation. This work introduces MemLong: Memory-Augmented Retrieval for Long Text Generation, a method designed to enhance the capabilities of long-context language modeling by utilizing an external retriever for historical information retrieval. MemLong combines a non-differentiable “ret-mem” module with a partially trainable decoder-only language model and introduces a fine-grained, controllable retrieval attention mechanism that leverages semantic-level relevant chunks. Comprehensive evaluations on multiple long-context language modeling benchmarks demonstrate that MemLong consistently outperforms other state-of-the-art LLMs. More importantly, MemLong can extend the context length on a single 3090 GPU from 4k up to 80k. Our code is available at https://github.com/Bui1dMySea/MemLong

arxiv情報

著者 Weijie Liu,Zecheng Tang,Juntao Li,Kehai Chen,Min Zhang
発行日 2024-08-30 02:01:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク