EnigmaToM: Improve LLMs’ Theory-of-Mind Reasoning Capabilities with Neural Knowledge Base of Entity States

要約

他者の認識と精神状態を推測する能力である理論(TOM)は、人間の相互作用の基本ですが、大規模な言語モデル(LLMS)にとっては挑戦的なままです。
既存のTOM推論方法は、知覚的な視点を獲得することで推論との約束を示していますが、多くの場合、既製のLLMSに過度に依存し、効率を低下させ、高次のTOM推論に適用可能性を制限します。
これらの問題に対処するために、(1)心理学にインスパイアされた反復マスキングメカニズムを統合する正確な視点標識と(2)重要な存在情報を誘発する知識注入を統合することにより、TOMの推論を強化する新しいニューロ – 神経系の枠組みであるEnigmatomを提示します。
Enigmaは、エンティティ状態の構造化された知識を生成して、さまざまなTOM注文にわたって信念追跡のための空間シーングラフを構築し、微調整されたエンティティ状態の詳細を備えたイベントを豊かにします。
Tomi、hitom、およびFantomのベンチマークに関する実験結果は、エニグマトムがさまざまなサイズのLLMにわたってTOMの推論を大幅に改善すること、特に高次の推論シナリオに優れていることを示しています。

要約(オリジナル)

Theory-of-Mind (ToM), the ability to infer others’ perceptions and mental states, is fundamental to human interaction but remains challenging for Large Language Models (LLMs). While existing ToM reasoning methods show promise with reasoning via perceptual perspective-taking, they often rely excessively on off-the-shelf LLMs, reducing their efficiency and limiting their applicability to high-order ToM reasoning. To address these issues, we present EnigmaToM, a novel neuro-symbolic framework that enhances ToM reasoning by integrating a Neural Knowledge Base of entity states (Enigma) for (1) a psychology-inspired iterative masking mechanism that facilitates accurate perspective-taking and (2) knowledge injection that elicits key entity information. Enigma generates structured knowledge of entity states to build spatial scene graphs for belief tracking across various ToM orders and enrich events with fine-grained entity state details. Experimental results on ToMi, HiToM, and FANToM benchmarks show that EnigmaToM significantly improves ToM reasoning across LLMs of varying sizes, particularly excelling in high-order reasoning scenarios.

arxiv情報

著者 Hainiu Xu,Siya Qi,Jiazheng Li,Yuxiang Zhou,Jinhua Du,Caroline Catmur,Yulan He
発行日 2025-06-02 14:15:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク