HI-TOM: A Benchmark for Evaluating Higher-Order Theory of Mind Reasoning in Large Language Models

要約

Theory of Mind (ToM) は、自分自身と他人の精神状態について推論する能力です。
ToM は、知能、言語理解、認知プロセスの発達において重要な役割を果たします。
これまでの研究では主に 1 階と 2 階の ToM に焦点を当ててきましたが、私たちは他者の信念に対する再帰的推論を含む高次の ToM を探求します。
心の高次理論ベンチマークである HI-TOM を紹介します。
さまざまな大規模言語モデル (LLM) を使用した実験による評価では、高次 ToM タスクのパフォーマンスの低下が示され、現在の LLM の限界が実証されました。
私たちは LLM のさまざまな失敗事例を徹底的に分析し、その結果が NLP の将来に与える影響についての考えを共有します。

要約(オリジナル)

Theory of Mind (ToM) is the ability to reason about one’s own and others’ mental states. ToM plays a critical role in the development of intelligence, language understanding, and cognitive processes. While previous work has primarily focused on first and second-order ToM, we explore higher-order ToM, which involves recursive reasoning on others’ beliefs. We introduce HI-TOM, a Higher Order Theory of Mind benchmark. Our experimental evaluation using various Large Language Models (LLMs) indicates a decline in performance on higher-order ToM tasks, demonstrating the limitations of current LLMs. We conduct a thorough analysis of different failure cases of LLMs, and share our thoughts on the implications of our findings on the future of NLP.

arxiv情報

著者 Yinghui He,Yufan Wu,Yilin Jia,Rada Mihalcea,Yulong Chen,Naihao Deng
発行日 2023-10-25 16:41:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク