要約
現在、心の理論 (ToM) の評価は、本質的に対話性が欠けている受動的な物語を使用したモデルのテストに重点を置いています。
質問応答を通じて、情報非対称な会話コンテキスト内で ToM をストレス テストするように設計された新しいベンチマークである FANToM を紹介します。
私たちのベンチマークは、大規模言語モデル (LLM) を評価する際に、心理学からの重要な理論的要件と必要な経験的考慮事項に基づいています。
特に、LLM の ToM 機能の錯覚または誤った感覚を特定するために、同じ根本的な推論を要求する複数の種類の質問を定式化します。
我々は、FANToM が最先端の LLM にとって困難であることを示します。LLM は、思考連鎖推論や微調整を行っても人間よりも大幅にパフォーマンスが劣ります。
要約(オリジナル)
Theory of mind (ToM) evaluations currently focus on testing models using passive narratives that inherently lack interactivity. We introduce FANToM, a new benchmark designed to stress-test ToM within information-asymmetric conversational contexts via question answering. Our benchmark draws upon important theoretical requisites from psychology and necessary empirical considerations when evaluating large language models (LLMs). In particular, we formulate multiple types of questions that demand the same underlying reasoning to identify illusory or false sense of ToM capabilities in LLMs. We show that FANToM is challenging for state-of-the-art LLMs, which perform significantly worse than humans even with chain-of-thought reasoning or fine-tuning.
arxiv情報
著者 | Hyunwoo Kim,Melanie Sclar,Xuhui Zhou,Ronan Le Bras,Gunhee Kim,Yejin Choi,Maarten Sap |
発行日 | 2023-10-31 17:58:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google