MuMA-ToM: Multi-modal Multi-Agent Theory of Mind

要約

複雑な現実世界のシナリオで人々の社会的相互作用を理解することは、しばしば複雑な精神的推論に依存しています。
人々が互いにどのように、そしてなぜ相互作用するかを本当に理解するには、社会的相互作用を引き起こす根本的な精神状態、すなわち、マルチエージェント相互作用における心の理論の理論を推測する必要があります。
さらに、社会的相互作用はしばしばマルチモーダルです。人々の行動を視聴したり、会話を聞いたり、過去の行動について読むことができます。
AIシステムが現実世界の環境で人々とうまくやり取りするためには、彼らの相互作用に関するマルチモーダル情報に基づいて、人々の精神状態とお互いの精神状態に関する推論を理解する必要があります。
このために、マインドベンチマークのマルチモーダルマルチエージェント理論であるMuma-Tomを紹介します。
Muma-Tomは、具体化されたマルチエージェント相互作用の精神的推論を評価する最初のマルチモーダルマインドベンチマークです。
Muma-Tomでは、現実的な家庭環境における人々のマルチモーダル行動のビデオとテキストの説明を提供します。
コンテキストに基づいて、他人の目標についての人々の目標、信念、信念について質問します。
人間の実験でムマトムを検証し、人間のベースラインを提供しました。
また、新しいマルチモーダル、マルチエージェントTOMモデル、LIMP(言語モデルベースの逆マルチエージェント計画)を提案しました。
私たちの実験結果は、LIMPが大規模なマルチモーダルモデル(GPT-4O、Gemini-1.5 Pro)や最近のマルチモーダルTOMモデルであるBIP-ALMを含む最先端の方法を大幅に上回ることを示しています。

要約(オリジナル)

Understanding people’s social interactions in complex real-world scenarios often relies on intricate mental reasoning. To truly understand how and why people interact with one another, we must infer the underlying mental states that give rise to the social interactions, i.e., Theory of Mind reasoning in multi-agent interactions. Additionally, social interactions are often multi-modal — we can watch people’s actions, hear their conversations, and/or read about their past behaviors. For AI systems to successfully and safely interact with people in real-world environments, they also need to understand people’s mental states as well as their inferences about each other’s mental states based on multi-modal information about their interactions. For this, we introduce MuMA-ToM, a Multi-modal Multi-Agent Theory of Mind benchmark. MuMA-ToM is the first multi-modal Theory of Mind benchmark that evaluates mental reasoning in embodied multi-agent interactions. In MuMA-ToM, we provide video and text descriptions of people’s multi-modal behavior in realistic household environments. Based on the context, we then ask questions about people’s goals, beliefs, and beliefs about others’ goals. We validated MuMA-ToM in a human experiment and provided a human baseline. We also proposed a novel multi-modal, multi-agent ToM model, LIMP (Language model-based Inverse Multi-agent Planning). Our experimental results show that LIMP significantly outperforms state-of-the-art methods, including large multi-modal models (e.g., GPT-4o, Gemini-1.5 Pro) and a recent multi-modal ToM model, BIP-ALM.

arxiv情報

著者 Haojun Shi,Suyu Ye,Xinyu Fang,Chuanyang Jin,Leyla Isik,Yen-Ling Kuo,Tianmin Shu
発行日 2025-01-23 16:31:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク