Improving Factuality with Explicit Working Memory

要約

大規模な言語モデルは、幻覚として知られる問題である事実上不正確なコンテンツを生成できます。
最近の作品は、繰り返しのプロンプトを通じて事実性を向上させるために、検索された高級世代の上に構築されていますが、これらの方法は従来のRAGデザインによって制限されています。
これらの課題に対処するために、外部リソースからリアルタイムのフィードバックを受け取るワーキングメモリを統合することにより、長期のテキスト生成の事実性を高める新しいアプローチであるEWE(明示的な作業記憶)を紹介します。
メモリは、オンラインのファクトチェックと検索フィードバックに基づいて更新され、GENERTIONプロセス中にEWEが誤った請求を修正し、より正確で信頼性の高い出力を確保することができます。
私たちの実験は、羊が4つの事実を求める長い形式の生成データセットの強力なベースラインよりも優れていることを示しており、回答の有用性を犠牲にすることなく、事実上のメトリックであるVeriscoreを2〜6ポイント増加させます。
さらなる分析により、メモリの更新、メモリユニットの構成、検索データストアの品質のルールの設計が、モデルのパフォーマンスに影響を与えるための重要な要因であることが明らかになりました。

要約(オリジナル)

Large language models can generate factually inaccurate content, a problem known as hallucination. Recent works have built upon retrieved-augmented generation to improve factuality through iterative prompting but these methods are limited by the traditional RAG design. To address these challenges, we introduce EWE (Explicit Working Memory), a novel approach that enhances factuality in long-form text generation by integrating a working memory that receives real-time feedback from external resources. The memory is refreshed based on online fact-checking and retrieval feedback, allowing EWE to rectify false claims during the generation process and ensure more accurate and reliable outputs. Our experiments demonstrate that Ewe outperforms strong baselines on four fact-seeking long-form generation datasets, increasing the factuality metric, VeriScore, by 2 to 6 points absolute without sacrificing the helpfulness of the responses. Further analysis reveals that the design of rules for memory updates, configurations of memory units, and the quality of the retrieval datastore are crucial factors for influencing model performance.

arxiv情報

著者 Mingda Chen,Yang Li,Karthik Padthe,Rulin Shao,Alicia Sun,Luke Zettlemoyer,Gargi Ghosh,Wen-tau Yih
発行日 2025-06-02 16:27:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク