A Notion of Complexity for Theory of Mind via Discrete World Models

要約

Theory of Mind (ToM) は、社会的推論が必要な複雑なシナリオにおける大規模言語モデル (LLM) の機能を評価するために使用できます。
研究コミュニティは多くの ToM ベンチマークを提案していますが、その硬さは大きく異なり、その複雑さは明確に定義されていません。
この研究は、ToM タスクの複雑さを測定するためのフレームワークを提案しています。
問題の複雑さを、問題を正しく解決するために必要な状態の数として定量化します。
私たちの複雑さの尺度は、明らかに難しくするように設計された ToM 問題の偽の状態も考慮に入れています。
私たちは独自の方法を使用して、広く採用されている 5 つの ToM ベンチマークの複雑さを評価します。
このフレームワークに加えて、エージェントの相互作用によって環境がどのように変化するかを説明することで、モデルで利用できる情報を増強するプロンプト手法を設計します。
この手法を Discrete World Models (DWM) と名付け、ToM タスクでどのように優れたパフォーマンスを引き出すかを示します。

要約(オリジナル)

Theory of Mind (ToM) can be used to assess the capabilities of Large Language Models (LLMs) in complex scenarios where social reasoning is required. While the research community has proposed many ToM benchmarks, their hardness varies greatly, and their complexity is not well defined. This work proposes a framework to measure the complexity of ToM tasks. We quantify a problem’s complexity as the number of states necessary to solve it correctly. Our complexity measure also accounts for spurious states of a ToM problem designed to make it apparently harder. We use our method to assess the complexity of five widely adopted ToM benchmarks. On top of this framework, we design a prompting technique that augments the information available to a model with a description of how the environment changes with the agents’ interactions. We name this technique Discrete World Models (DWM) and show how it elicits superior performance on ToM tasks.

arxiv情報

著者 X. Angelo Huang,Emanuele La Malfa,Samuele Marro,Andrea Asperti,Anthony Cohn,Michael Wooldridge
発行日 2024-08-01 15:44:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク