PersuasiveToM: A Benchmark for Evaluating Machine Theory of Mind in Persuasive Dialogues

要約

自分自身と他者の精神状態を理解し、予測する能力は、心の理論(TOM)として知られており、効果的な社会的相互作用に不可欠です。
大規模な言語モデル(LLM)がTOMの形を示すかどうかを評価するために、最近の研究が登場しています。
最近の研究ではLLMSでTOMを評価していますが、既存のベンチマークは主に肉体的認識に焦点を当て、合成物語や会話におけるサリー・アンテのテストによって導かれ、現実の社会的相互作用における精神状態の複雑な心理的活動を捉えることができません。
このギャップを軽減するために、説得力のある対話でLLMのTOM能力を評価するために設計されたベンチマークであるPersuasivetomを提案します。
私たちのフレームワークでは、2つのカテゴリの質問を紹介します。(1)TOMの推論、進化する精神状態(例えば、説得力の欲求の変化)を追跡するLLMの能力を評価すること、および(2)TOMアプリケーション、LLMが推測された精神状態を利用して効果的な説得戦略を選択し(例えば、希少性を強調)、有効性を評価できるかどうかを評価します。
8つの最先端のLLMにわたる実験は、モデルが複数の質問に優れている一方で、精神状態のダイナミクスとシフトを追跡し、対話全体の精神状態を理解する必要がある質問に答えるのに苦労することを明らかにしています。
PersuasiveTomでの私たちの目的は、複雑な心理的活動により重点を置いて、LLMSのTOM推論能力の効果的な評価を可能にすることです。
私たちのコードは、https://github.com/yu-fangxu/persuasivetomで入手できます。

要約(オリジナル)

The ability to understand and predict the mental states of oneself and others, known as the Theory of Mind (ToM), is crucial for effective social interactions. Recent research has emerged to evaluate whether Large Language Models (LLMs) exhibit a form of ToM. Although recent studies have evaluated ToM in LLMs, existing benchmarks focus predominantly on physical perception with principles guided by the Sally-Anne test in synthetic stories and conversations, failing to capture the complex psychological activities of mental states in real-life social interactions. To mitigate this gap, we propose PersuasiveToM, a benchmark designed to evaluate the ToM abilities of LLMs in persuasive dialogues. Our framework introduces two categories of questions: (1) ToM Reasoning, assessing the capacity of LLMs to track evolving mental states (e.g., desire shifts in persuadees), and (2) ToM Application, evaluating whether LLMs can take advantage of inferred mental states to select effective persuasion strategies (e.g., emphasize rarity) and evaluate the effectiveness of persuasion strategies. Experiments across eight state-of-the-art LLMs reveal that while models excel on multiple questions, they struggle to answer questions that need tracking the dynamics and shifts of mental states and understanding the mental states in the whole dialogue comprehensively. Our aim with PersuasiveToM is to allow an effective evaluation of the ToM reasoning ability of LLMs with more focus on complex psychological activities. Our code is available at https://github.com/Yu-Fangxu/PersuasiveToM.

arxiv情報

著者 Fangxu Yu,Lai Jiang,Shenyi Huang,Zhen Wu,Xinyu Dai
発行日 2025-02-28 13:04:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク