ToMATO: Verbalizing the Mental States of Role-Playing LLMs for Benchmarking Theory of Mind

要約

既存の心の理論 (ToM) ベンチマークは、次の 3 つの側面で現実世界のシナリオから乖離しています。1) 信念などの限られた範囲の精神状態を評価する、2) 誤った信念は包括的に調査されていない、3) 登場人物の多様な性格特性
見落とされている。
これらの課題に対処するために、会話における多肢選択 QA として策定された新しい ToM ベンチマークである ToMATO を導入します。
ToMATO は、情報の非対称性を特徴とする LLM-LLM 会話を通じて生成されます。
各発話の前にロールプレイング LLM が自分の考えを言語化することを要求するプロンプト手法を採用することで、信念、意図、欲望、感情、知識の 5 つのカテゴリにわたる一次および二次の精神状態の両方を捕捉します。
これらの言語化された考えは、会話中の登場人物の精神状態を評価するために設計された質問に対する答えとして機能します。
さらに、他人から考えを隠すことによってもたらされる情報の非対称性は、さまざまな精神状態についての誤った信念の生成を引き起こします。
LLM に明確な性格特性を割り当てると、発話と思考の両方がさらに多様化します。
ToMATO は、5.4k の質問、753 の会話、15 の性格特性パターンで構成されています。
私たちの分析では、このデータセット構築アプローチは、ロールプレイング LLM 間の情報の非対称性により誤った信念を頻繁に生成し、多様な個性を効果的に反映していることが示されています。
ToMATO で 9 つの LLM を評価したところ、GPT-4o mini でさえ、特に誤った信念を理解する点で人間のパフォーマンスに遅れをとっており、さまざまな性格特性に対する堅牢性に欠けていることがわかりました。

要約(オリジナル)

Existing Theory of Mind (ToM) benchmarks diverge from real-world scenarios in three aspects: 1) they assess a limited range of mental states such as beliefs, 2) false beliefs are not comprehensively explored, and 3) the diverse personality traits of characters are overlooked. To address these challenges, we introduce ToMATO, a new ToM benchmark formulated as multiple-choice QA over conversations. ToMATO is generated via LLM-LLM conversations featuring information asymmetry. By employing a prompting method that requires role-playing LLMs to verbalize their thoughts before each utterance, we capture both first- and second-order mental states across five categories: belief, intention, desire, emotion, and knowledge. These verbalized thoughts serve as answers to questions designed to assess the mental states of characters within conversations. Furthermore, the information asymmetry introduced by hiding thoughts from others induces the generation of false beliefs about various mental states. Assigning distinct personality traits to LLMs further diversifies both utterances and thoughts. ToMATO consists of 5.4k questions, 753 conversations, and 15 personality trait patterns. Our analysis shows that this dataset construction approach frequently generates false beliefs due to the information asymmetry between role-playing LLMs, and effectively reflects diverse personalities. We evaluate nine LLMs on ToMATO and find that even GPT-4o mini lags behind human performance, especially in understanding false beliefs, and lacks robustness to various personality traits.

arxiv情報

著者 Kazutoshi Shinoda,Nobukatsu Hojo,Kyosuke Nishida,Saki Mizuno,Keita Suzuki,Ryo Masumura,Hiroaki Sugiyama,Kuniko Saito
発行日 2025-01-15 14:47:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク