From RAG to Memory: Non-Parametric Continual Learning for Large Language Models

要約

知識を継続的に獲得、整理、および活用する能力は、AIシステムが最大限の潜在能力を解除するために近似しなければならない人間の知性の重要な特徴です。
大規模な言語モデル(LLMS)を使用した継続的な学習における課題を考えると、検索された生成(RAG)が新しい情報を導入する支配的な方法になりました。
ただし、ベクトル検索への依存は、人間の長期記憶の動的で相互に接続された性質を模倣する能力を妨げます。
最近のRAGアプローチは、これらのギャップの一部、つまり感覚作りと連想性に対処するために、知識グラフなどのさまざまな構造を持つベクトル埋め込みを増強します。
ただし、より基本的な事実のメモリタスクでのパフォーマンスは、標準的なぼろきれをはるかに下回ります。
この意図しない劣化に対処し、Hipporag 2を提案します。これは、事実、センスメイキング、および連想メモリタスクに関して標準的なRAGを包括的に上回るフレームワークです。
Hipporag 2は、Hipporagで使用されるパーソナライズされたPagerankアルゴリズムに基づいて構築され、より深い通過統合とLLMのより効果的なオンライン使用でそれを強化します。
この組み合わせにより、このRAGシステムが人間の長期記憶の有効性に近づき、最先端の埋め込みモデルよりも連想メモリタスクの7%の改善を達成しながら、優れた事実の知識と感覚作成の記憶機能を示します。
この作業は、LLMSのノンパラメトリック継続学習への道を開きます。
コードとデータは、https://github.com/osu-nlp-group/hipporagでリリースされます。

要約(オリジナル)

Our ability to continuously acquire, organize, and leverage knowledge is a key feature of human intelligence that AI systems must approximate to unlock their full potential. Given the challenges in continual learning with large language models (LLMs), retrieval-augmented generation (RAG) has become the dominant way to introduce new information. However, its reliance on vector retrieval hinders its ability to mimic the dynamic and interconnected nature of human long-term memory. Recent RAG approaches augment vector embeddings with various structures like knowledge graphs to address some of these gaps, namely sense-making and associativity. However, their performance on more basic factual memory tasks drops considerably below standard RAG. We address this unintended deterioration and propose HippoRAG 2, a framework that outperforms standard RAG comprehensively on factual, sense-making, and associative memory tasks. HippoRAG 2 builds upon the Personalized PageRank algorithm used in HippoRAG and enhances it with deeper passage integration and more effective online use of an LLM. This combination pushes this RAG system closer to the effectiveness of human long-term memory, achieving a 7% improvement in associative memory tasks over the state-of-the-art embedding model while also exhibiting superior factual knowledge and sense-making memory capabilities. This work paves the way for non-parametric continual learning for LLMs. Our code and data will be released at https://github.com/OSU-NLP-Group/HippoRAG.

arxiv情報

著者 Bernal Jiménez Gutiérrez,Yiheng Shu,Weijian Qi,Sizhe Zhou,Yu Su
発行日 2025-02-20 18:26:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク