Beyond Words: A Latent Memory Approach to Internal Reasoning in LLMs

要約

大規模な言語モデル(LLMS)の最近の進歩は、自然言語で明示的な推論ステップを生み出すモデルである思考チェーン(COT)パラダイムを普及させています。
このアプローチは解釈可能性を改善し、外部監査を促進しますが、内部推論のための最も計算上効率的な方法を表していない場合があります。
対照的に、人間の認知は、完全な言語化を必要とせずに過去の感覚とエピソードの情報を思い出す暗黙の精神的表現に依存しています。
この論文では、暗黙の精神的表現をLLMSの内部推論プロセスに統合するフレームワークを提案します。
予備的な実験では、暗黙のメモリモジュール(IMM)を単純なGPTモデルに組み込むと、通常のGPTベースラインと比較して最終トレーニング損失が35%から57%の減少が得られることが示されています。
明示的な解釈可能性チャネル(例えば、思考のチェーンデコーダーなど)の追加は、このアプローチ内で実装するのに簡単です。
理論的基礎の概要を説明し、メモリモジュールをスケーリングするための技術的メカニズムを提案し、これらのアイデアが明示的な監査可能性のためのオプションの将来の拡張機能により、より効率的で堅牢な推論にどのようにつながるかを議論します。

要約(オリジナル)

Recent advances in large language models (LLMs) have popularized the chain-of-thought (CoT) paradigm, in which models produce explicit reasoning steps in natural language. Although this approach improves interpretability and facilitates external auditing, it may not represent the most computationally efficient method for internal reasoning. In contrast, human cognition relies on implicit mental representations that recall past sensory and episodic information without requiring complete verbalization. In this paper, we propose a framework that integrates implicit mental representations into the internal reasoning processes of LLMs. Preliminary experiments indicate that incorporating an Implicit Memory Module (IMM) into a simple GPT model yields a reduction of between 35% and 57% in final training loss compared to a regular GPT baseline. The addition of an explicit interpretability channel (e.g., a chain-of-thought decoder) is straightforward to implement within this approach. We outline theoretical foundations, propose technical mechanisms to scale the memory module, and discuss how these ideas may lead to more efficient and robust reasoning, with optional future extensions for explicit auditability.

arxiv情報

著者 José I. Orlicki
発行日 2025-02-28 13:22:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク