MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory

要約

現在の大規模な言語モデル(LLM)は、多くの知識関連のタスクでうまく機能しますが、暗黙のストレージメカニズムとしてパラメーターに依存することにより制限されます。
その結果、彼らはまれな出来事を暗記し、事実が時間とともに変化するにつれて記憶を更新することに苦労しています。
さらに、パラメトリックメモリの解釈不可能な性質により、幻覚を防ぐことが困難になります。
メモリに特化したパラメーターでLLMを編集および増強することは、部分的な解決策のみです。
このペーパーでは、構造化された明示的な読み取りとワイトメモリモジュールを統合することにより、LLMを強化する新しい方法であるMEMLLMを紹介します。
MEMLLMは、メモリとの動的な相互作用を可能にし、保存された知識を使用するLLMの能力を改善することにより、前述の課題に取り組みます。
私たちの実験は、MEMLLMが一般的な言語モデリングと特に知識集約的なタスクにおけるLLMのパフォーマンスと解釈性を高めることを示しています。
Memllmは、LLMをより根拠のあるものにし、記憶の増強を通じて事実にするための重要なステップであると考えています。
プロジェクトリポジトリは、https://github.com/amodaresi/memllmで公開されています

要約(オリジナル)

While current large language models (LLMs) perform well on many knowledge-related tasks, they are limited by relying on their parameters as an implicit storage mechanism. As a result, they struggle with memorizing rare events and with updating their memory as facts change over time. In addition, the uninterpretable nature of parametric memory makes it challenging to prevent hallucination. Model editing and augmenting LLMs with parameters specialized for memory are only partial solutions. In this paper, we introduce MemLLM, a novel method of enhancing LLMs by integrating a structured and explicit read-and-write memory module. MemLLM tackles the aforementioned challenges by enabling dynamic interaction with the memory and improving the LLM’s capabilities in using stored knowledge. Our experiments indicate that MemLLM enhances the LLM’s performance and interpretability, in language modeling in general and knowledge-intensive tasks in particular. We see MemLLM as an important step towards making LLMs more grounded and factual through memory augmentation. The project repository is publicly available at https://github.com/amodaresi/MemLLM

arxiv情報

著者 Ali Modarressi,Abdullatif Köksal,Ayyoob Imani,Mohsen Fayyaz,Hinrich Schütze
発行日 2025-04-17 15:10:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク