Assessing Episodic Memory in LLMs with Sequence Order Recall Tasks

要約

現在の LLM ベンチマークは、モデルの事実と意味関係の記憶を評価することに焦点を当てており、主に長期記憶の意味的側面を評価しています。
ただし、人間の場合、長期記憶にはエピソード記憶も含まれており、記憶をその状況(記憶が起こった時間や場所など)に結び付けます。
記憶を文脈化する能力は、多くの認知タスクや日常の機能にとって非常に重要です。
この形式のメモリは、既存のベンチマークを使用した LLM では評価されていません。
LLM における記憶評価のギャップに対処するために、認知心理学におけるエピソード記憶の研究に使用されるタスクを応用した Sequence Order Recall Tasks (SORT) を導入します。
SORT は、LLM がテキスト セグメントの正しい順序を呼び出すことを要求し、簡単に拡張可能で追加の注釈を必要としない一般的なフレームワークを提供します。
我々は、最近パブリックドメインに追加された 9 冊の書籍から抽出された 36,000 のセグメントのペアで構成される初期評価データセット Book-SORT を提示します。
155 人の参加者を対象とした人体実験に基づいて、人間は本の長期記憶に基づいて順序を思い出すことができることを示しました。
SORT 評価中に関連するテキストがコンテキスト内で与えられると、モデルが高精度でタスクを実行できることがわかりました。
ただし、トレーニング中にのみ書籍のテキストを提示した場合、LLM の SORT でのパフォーマンスは不十分です。
SORT はメモリのより多くの側面を評価できるようにすることで、メモリ拡張モデルの新たな開発に役立つと考えています。

要約(オリジナル)

Current LLM benchmarks focus on evaluating models’ memory of facts and semantic relations, primarily assessing semantic aspects of long-term memory. However, in humans, long-term memory also includes episodic memory, which links memories to their contexts, such as the time and place they occurred. The ability to contextualize memories is crucial for many cognitive tasks and everyday functions. This form of memory has not been evaluated in LLMs with existing benchmarks. To address the gap in evaluating memory in LLMs, we introduce Sequence Order Recall Tasks (SORT), which we adapt from tasks used to study episodic memory in cognitive psychology. SORT requires LLMs to recall the correct order of text segments, and provides a general framework that is both easily extendable and does not require any additional annotations. We present an initial evaluation dataset, Book-SORT, comprising 36k pairs of segments extracted from 9 books recently added to the public domain. Based on a human experiment with 155 participants, we show that humans can recall sequence order based on long-term memory of a book. We find that models can perform the task with high accuracy when relevant text is given in-context during the SORT evaluation. However, when presented with the book text only during training, LLMs’ performance on SORT falls short. By allowing to evaluate more aspects of memory, we believe that SORT will aid in the emerging development of memory-augmented models.

arxiv情報

著者 Mathis Pink,Vy A. Vo,Qinyuan Wu,Jianing Mu,Javier S. Turek,Uri Hasson,Kenneth A. Norman,Sebastian Michelmann,Alexander Huth,Mariya Toneva
発行日 2024-10-10 17:17:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク