Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models

要約

人間は自然に心の理論 (ToM)、つまり他人の精神状態や信念を理解する能力を発達させますが、最先端の大規模言語モデル (LLM) は単純な ToM ベンチマークではパフォーマンスが劣ります。
私たちは、LLM における主要な人間の ToM 前駆体 (知覚推論と知覚から信念への推論) を評価することによって、LLM の ToM 能力についての理解を拡張できると仮定しています。
我々は、Percept-ToMi と Percept-FANToM という 2 つのデータセットを導入し、それぞれ ToMi と FANToM に対するキャラクターの認識に注釈を付けることで、LLM の ToM に対するこれらの前駆的推論を評価します。
8 つの最先端の LLM を評価したところ、これらのモデルは一般に、知覚推論では良好なパフォーマンスを発揮する一方で、知覚から信念への推論では能力が限られている (たとえば、抑制制御の欠如) ことが明らかになりました。
これらの結果に基づいて、LLM の限られた知覚から信念への推論を補完しながら、LLM の強力な知覚推論能力を活用する新しい ToM 手法である PercepToM を紹介します。
実験結果は、PercepToM が、特に誤った信念のシナリオにおいて、LLM のパフォーマンスを大幅に向上させることを示しています。

要約(オリジナル)

While humans naturally develop theory of mind (ToM), the capability to understand other people’s mental states and beliefs, state-of-the-art large language models (LLMs) underperform on simple ToM benchmarks. We posit that we can extend our understanding of LLMs’ ToM abilities by evaluating key human ToM precursors — perception inference and perception-to-belief inference — in LLMs. We introduce two datasets, Percept-ToMi and Percept-FANToM, to evaluate these precursory inferences for ToM in LLMs by annotating characters’ perceptions on ToMi and FANToM, respectively. Our evaluation of eight state-of-the-art LLMs reveals that the models generally perform well in perception inference while exhibiting limited capability in perception-to-belief inference (e.g., lack of inhibitory control). Based on these results, we present PercepToM, a novel ToM method leveraging LLMs’ strong perception inference capability while supplementing their limited perception-to-belief inference. Experimental results demonstrate that PercepToM significantly enhances LLM’s performance, especially in false belief scenarios.

arxiv情報

著者 Chani Jung,Dongkwan Kim,Jiho Jin,Jiseon Kim,Yeon Seonwoo,Yejin Choi,Alice Oh,Hyunwoo Kim
発行日 2024-07-09 09:11:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク