Cognitive Memory in Large Language Models

要約

本論文では、ラージ・ランゲージ・モデル(LLM)における記憶メカニズムについて考察し、文脈に富んだ応答、幻覚の減少、効率の向上におけるその重要性を強調する。記憶を感覚記憶、短期記憶、長期記憶に分類し、感覚記憶は入力プロンプトに対応し、短期記憶は即時コンテキストを処理し、長期記憶は外部データベースや構造体を介して実装される。テキストベースのメモリセクションでは、取得(選択と要約)、管理(更新、アクセス、保存、競合の解決)、利用(全文検索、SQLクエリー、セマンティック検索)を扱っている。KVキャッシュに基づく記憶のセクションでは、選択方法(規則性に基づく要約、スコアに基づくアプローチ、特殊トークン埋め込み)と圧縮技術(低ランク圧縮、KVマージ、マルチモーダル圧縮)、およびオフロードや共有アテンションメカニズムなどの管理戦略について説明する。パラメータベースの記憶手法(LoRA、TTT、MoE)は、記憶をモデルパラメータに変換して効率を高め、隠れ状態ベースの記憶手法(チャンクメカニズム、リカレント変換器、Mambaモデル)は、RNNの隠れ状態を現在の手法と組み合わせることで、長文処理を改善する。全体として、本論文はLLMメモリメカニズムを包括的に分析し、その意義と今後の研究の方向性を強調している。

要約(オリジナル)

This paper examines memory mechanisms in Large Language Models (LLMs), emphasizing their importance for context-rich responses, reduced hallucinations, and improved efficiency. It categorizes memory into sensory, short-term, and long-term, with sensory memory corresponding to input prompts, short-term memory processing immediate context, and long-term memory implemented via external databases or structures. The text-based memory section covers acquisition (selection and summarization), management (updating, accessing, storing, and resolving conflicts), and utilization (full-text search, SQL queries, semantic search). The KV cache-based memory section discusses selection methods (regularity-based summarization, score-based approaches, special token embeddings) and compression techniques (low-rank compression, KV merging, multimodal compression), along with management strategies like offloading and shared attention mechanisms. Parameter-based memory methods (LoRA, TTT, MoE) transform memories into model parameters to enhance efficiency, while hidden-state-based memory approaches (chunk mechanisms, recurrent transformers, Mamba model) improve long-text processing by combining RNN hidden states with current methods. Overall, the paper offers a comprehensive analysis of LLM memory mechanisms, highlighting their significance and future research directions.

arxiv情報

著者 Lianlei Shan,Shixian Luo,Zezhou Zhu,Yu Yuan,Yong Wu
発行日 2025-04-03 09:58:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク