要約
大規模な言語モデル(LLMS)は、コンテキストウィンドウ内でうまく機能しているにもかかわらず、数百ターンにまたがる拡張会話の一貫性を維持することに苦労しています。
このペーパーでは、人間の認知プロセスに触発されたデュアルメモリシステムであるHema(海馬にインスパイアされた拡張メモリアーキテクチャ)を紹介します。
HEMAは、コンパクトメモリを組み合わせます – グローバルな物語の一貫性を保存する連続的に更新された1文の要約とベクターメモリ – コサインの類似性を介してクエリが照会されたチャンク埋め込みのエピソードストア。
6Bパラメーター変圧器と統合されると、HEMAは300回転を超えて300回転を超えてコヒーレントな対話を維持し、3,500トークン未満のプロンプトの長さを維持します。
実験結果は大幅な改善を示します。事実上のリコールの精度は41%から87%に増加し、5ポイントスケールで人間の定格コヒーレンスは2.7から4.3に向上します。
10Kインデックス付きチャンクを使用すると、ベクトルメモリはp@5> = 0.80およびr@50> = 0.74を達成し、要約のみのアプローチと比較して、精密回復曲線の下で領域を2倍にします。
アブレーション研究により、2つの重要な洞察が明らかになりました。年齢加重剪定によるセマンティックの忘却は、回収損失を最小限に抑えて検索レイテンシを34%削減し、2レベルの要約階層では、超長い会話で1,000ターンを超えるカスケードエラーを防ぎます。
HEMAは、逐語的リコールとセマンティックの連続性を組み合わせることで、モデル再訓練なしで1か月間の対話が可能なプライバシーを認識する会話型AIの実用的なソリューションが提供されることを示しています。
要約(オリジナル)
Large language models (LLMs) struggle with maintaining coherence in extended conversations spanning hundreds of turns, despite performing well within their context windows. This paper introduces HEMA (Hippocampus-Inspired Extended Memory Architecture), a dual-memory system inspired by human cognitive processes. HEMA combines Compact Memory – a continuously updated one-sentence summary preserving global narrative coherence, and Vector Memory – an episodic store of chunk embeddings queried via cosine similarity. When integrated with a 6B-parameter transformer, HEMA maintains coherent dialogues beyond 300 turns while keeping prompt length under 3,500 tokens. Experimental results show substantial improvements: factual recall accuracy increases from 41% to 87%, and human-rated coherence improves from 2.7 to 4.3 on a 5-point scale. With 10K indexed chunks, Vector Memory achieves P@5 >= 0.80 and R@50 >= 0.74, doubling the area under the precision-recall curve compared to summarization-only approaches. Ablation studies reveal two key insights: semantic forgetting through age-weighted pruning reduces retrieval latency by 34% with minimal recall loss, and a two-level summary hierarchy prevents cascade errors in ultra-long conversations exceeding 1,000 turns. HEMA demonstrates that combining verbatim recall with semantic continuity provides a practical solution for privacy-aware conversational AI capable of month-long dialogues without model retraining.
arxiv情報
著者 | Kwangseob Ahn |
発行日 | 2025-04-23 14:27:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google