MindGames: Targeting Theory of Mind in Large Language Models with Dynamic Epistemic Modal Logic

要約

心の理論 (ToM) は知能の重要な要素ですが、その評価は依然として激しい議論の対象です。
以前の研究では、人間が作成した標準化テストまたはルールベースのテンプレートを使用して、人間の ToM 評価を自然言語処理モデルに適用しました。
ただし、これらの方法は主に単純な推論に焦点を当てており、さらなる検証が必要です。
ここでは、動的な認識論理を活用して、ToM の特定のコンポーネントを分離し、制御された問題を生成します。
また、これらの問題を英語の自然言語で表現するための新しい言語化テクニックも紹介します。
私たちの調査結果は、一部の言語モデルのスケーリング (70M から 6B、および 350M から 174B) では、ランダムな偶然よりも優れた結果が常に得られるわけではないことを示しています。
GPT-4 は優れた認識論的推論機能を示していますが、まだ改善の余地があります。
私たちのコードとデータセットは公開されています (https://huggingface.co/datasets/sileod/mindgames 、https://github.com/sileod/llm- Theory-of-mind )。

要約(オリジナル)

Theory of Mind (ToM) is a critical component of intelligence but its assessment remains the subject of heated debates. Prior research applied human ToM assessments to natural language processing models using either human-created standardized tests or rule-based templates. However, these methods primarily focus on simplistic reasoning and require further validation. Here, we leverage dynamic epistemic logic to isolate a particular component of ToM and to generate controlled problems. We also introduce new verbalization techniques to express these problems in English natural language. Our findings indicate that some language model scaling (from 70M to 6B and 350M to 174B) does not consistently yield results better than random chance. While GPT-4 demonstrates superior epistemic reasoning capabilities, there is still room for improvement. Our code and datasets are publicly available (https://huggingface.co/datasets/sileod/mindgames , https://github.com/sileod/llm-theory-of-mind )

arxiv情報

著者 Damien Sileo,Antoine Lernould
発行日 2023-11-07 08:53:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, 68T27, 68T50, cs.AI, cs.CL, I.2.7 パーマリンク