OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models

要約

他者の精神状態を理解し、追跡する機械の能力である心の神経理論 (N-ToM) は、社会的に知的なエージェントを開発する上で極めて重要です。
しかし、普及している N-ToM ベンチマークには、曖昧で人工的な物語の存在、性格特性や好みの欠如、キャラクターの心理的精神状態に対処する質問の欠如、提示される質問の多様性の制限など、いくつかの欠点があります。
これらの問題に対応して、私たちは OpenToM を構築します。OpenToM は、(1) より長く明確な物語、(2) 明確な性格特性を持つキャラクター、(3) キャラクターの意図によって引き起こされるアクション、および (
4) 物理的世界と心理的世界の両方におけるキャラクターの精神状態をモデル化する LLM の能力に挑戦するように設計された質問。
OpenToM を使用することで、最先端の LLM は物理世界の精神状態の特定の側面をモデル化することには成功するものの、心理世界におけるキャラクターの精神状態を追跡する場合には不十分であることが明らかになりました。

要約(オリジナル)

Neural Theory-of-Mind (N-ToM), machine’s ability to understand and keep track of the mental states of others, is pivotal in developing socially intelligent agents. However, prevalent N-ToM benchmarks have several shortcomings, including the presence of ambiguous and artificial narratives, absence of personality traits and preferences, a lack of questions addressing characters’ psychological mental states, and limited diversity in the questions posed. In response to these issues, we construct OpenToM, a new benchmark for assessing N-ToM with (1) longer and clearer narrative stories, (2) characters with explicit personality traits, (3) actions that are triggered by character intentions, and (4) questions designed to challenge LLMs’ capabilities of modeling characters’ mental states of both the physical and psychological world. Using OpenToM, we reveal that state-of-the-art LLMs thrive at modeling certain aspects of mental states in the physical world but fall short when tracking characters’ mental states in the psychological world.

arxiv情報

著者 Hainiu Xu,Runcong Zhao,Lixing Zhu,Jinhua Du,Yulan He
発行日 2024-02-14 13:23:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク