OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models

要約

ニューラル・セオリー・オブ・マインド(N-ToM)は、機械が他者の心理状態を理解し追跡する能力であり、社会的知能を持つエージェントを開発する上で極めて重要である。しかし、一般的なN-ToMベンチマークには、曖昧で人工的な物語の存在、性格特性や嗜好の不在、登場人物の心理的な精神状態を扱う質問の不足、質問の多様性の制限など、いくつかの欠点があります。これらの問題点を解決するために、我々は、N-ToMを評価するための新しいベンチマークであるOpenToMを構築した。OpenToMは、(1)より長く明確な物語ストーリー、(2)明確な性格特性を持つ登場人物、(3)登場人物の意図によって引き起こされる行動、(4)登場人物の物理的・心理的世界の両方の心的状態をモデル化するLLMの能力を試すように設計された質問、などを含む。OpenToMを使用することで、最先端のLLMは、物理的な世界における心的状態の特定の側面をモデル化することに優れているが、心理的な世界におけるキャラクターの心的状態を追跡する際には不十分であることが明らかになった。

要約(オリジナル)

Neural Theory-of-Mind (N-ToM), machine’s ability to understand and keep track of the mental states of others, is pivotal in developing socially intelligent agents. However, prevalent N-ToM benchmarks have several shortcomings, including the presence of ambiguous and artificial narratives, absence of personality traits and preferences, a lack of questions addressing characters’ psychological mental states, and limited diversity in the questions posed. In response to these issues, we construct OpenToM, a new benchmark for assessing N-ToM with (1) longer and clearer narrative stories, (2) characters with explicit personality traits, (3) actions that are triggered by character intentions, and (4) questions designed to challenge LLMs’ capabilities of modeling characters’ mental states of both the physical and psychological world. Using OpenToM, we reveal that state-of-the-art LLMs thrive at modeling certain aspects of mental states in the physical world but fall short when tracking characters’ mental states in the psychological world.

arxiv情報

著者 Hainiu Xu,Runcong Zhao,Lixing Zhu,Jinhua Du,Yulan He
発行日 2024-06-03 10:48:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク