LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory

要約

最近の大規模言語モデル (LLM) ベースのチャット アシスタント システムには、ユーザー アシスタントのチャット履歴を追跡するためのメモリ コンポーネントが統合されており、より正確でパーソナライズされた応答が可能になります。
しかし、持続的な相互作用における彼らの長期記憶能力はまだ研究されていません。
このペーパーでは、チャット アシスタントの 5 つの中核となる長期記憶能力 (情報抽出、マルチセッション推論、時間的推論、知識の更新、棄権) を評価するために設計された包括的なベンチマークである LongMemEval を紹介します。
LongMemEval は、自由に拡張可能なユーザー アシスタントのチャット履歴に 500 の綿密に精選された質問が埋め込まれているため、既存の長期記憶システムに重大な課題を提示しており、市販のチャット アシスタントやロングコンテキスト LLM では、継続的な対話にわたる情報の記憶精度が 30% 低下することが示されています。
次に、長期メモリ設計を、インデックス作成、検索、読み取りの各段階にわたる 4 つの設計選択肢に分類する統一フレームワークを提示します。
重要な実験的洞察に基づいて、値の粒度を最適化するためのセッション分解、インデックス構造を強化するためのファクト拡張キー拡張、検索範囲を調整するための時間認識クエリ拡張など、いくつかのメモリ設計を提案します。
実験結果は、これらの最適化により、記憶想起と LongMemEval での下流の質問応答の両方が大幅に改善されることを示しています。
全体として、私たちの研究は、LLM ベースのチャット アシスタントの長期記憶機能を向上させ、よりパーソナライズされた信頼性の高い会話型 AI への道を開くための貴重なリソースとガイダンスを提供します。

要約(オリジナル)

Recent large language model (LLM)-driven chat assistant systems have integrated memory components to track user-assistant chat histories, enabling more accurate and personalized responses. However, their long-term memory capabilities in sustained interactions remain underexplored. This paper introduces LongMemEval, a comprehensive benchmark designed to evaluate five core long-term memory abilities of chat assistants: information extraction, multi-session reasoning, temporal reasoning, knowledge updates, and abstention. With 500 meticulously curated questions embedded within freely scalable user-assistant chat histories, LongMemEval presents a significant challenge to existing long-term memory systems, with commercial chat assistants and long-context LLMs showing 30% accuracy drop on memorizing information across sustained interactions. We then present a unified framework that breaks down the long-term memory design into four design choices across the indexing, retrieval, and reading stages. Built upon key experimental insights, we propose several memory designs including session decomposition for optimizing value granularity, fact-augmented key expansion for enhancing the index structure, and time-aware query expansion for refining the search scope. Experiment results show that these optimizations greatly improve both memory recall and downstream question answering on LongMemEval. Overall, our study provides valuable resources and guidance for advancing the long-term memory capabilities of LLM-based chat assistants, paving the way toward more personalized and reliable conversational AI.

arxiv情報

著者 Di Wu,Hongwei Wang,Wenhao Yu,Yuwei Zhang,Kai-Wei Chang,Dong Yu
発行日 2024-10-14 17:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク