MindGames: Targeting Theory of Mind in Large Language Models with Dynamic Epistemic Modal Logic

要約

タイトル:MindGames:動的認識論的モーダル論理を用いた大規模言語モデルにおける心の理論のターゲティング

要約:

– 理論的モデル(ToM)は知性の重要な構成要素であるが、正確な測定は今でも議論の対象である。
– これまでの研究では、人間が作成した標準化されたテストまたはルールベースのテンプレートを使用して、自然言語処理モデルに人間のToM評価を適用しようとしてきたが、これらの方法は主に単純化された推論に焦点を当てており、さらなる検証が必要である。
– 本研究では、ToMと重なりがある動的認識論的論理を使用して、より複雑な問題を生成する。また、自然言語を使用してこれらの問題を表現するための新しい口頭化技術を導入する。
– 結果として、70Mから6B、350Mから174Bへの言語モデルのスケーリングは、ランダムチャンスよりも一貫して優れた結果をもたらさないことが示された。
– GPT-4は改善された認知的推論能力を示すが、改良の余地があることがわかった。
– 本研究で使用したコードとデータセットは、公開されている(https://github.com/antoinelrnld/modlog https://huggingface.co/datasets/sileod/mindgames)。

要約(オリジナル)

Theory of Mind (ToM) is a critical component of intelligence, yet accurately measuring it continues to be a subject of debate. Prior research has attempted to apply human ToM assessments to natural language processing models using either human-created standardized tests or rule-based templates. However, these methods primarily focus on simplistic reasoning and require further validation. In this study, we utilize dynamic epistemic logic, which has established overlaps with ToM, to generate more intricate problems. We also introduce novel verbalization techniques to express these problems using natural language. Our findings indicate that certain language model scaling (from 70M to 6B and 350M to 174B) does not consistently yield results better than random chance. While GPT-4 demonstrates improved epistemic reasoning capabilities, there is still room for enhancement. Our code and datasets are publicly available https://github.com/antoinelrnld/modlog https://huggingface.co/datasets/sileod/mindgames

arxiv情報

著者 Damien Sileo,Antoine Lernould
発行日 2023-05-05 08:14:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: 68T01, 68T27, 68T50, cs.AI, cs.CL, I.2.7 パーマリンク