MuMA-ToM: Multi-modal Multi-Agent Theory of Mind

要約

複雑な現実世界のシナリオにおける人々の社会的相互作用を理解するには、多くの場合、複雑な精神的推論に依存します。
人々が互いにどのように、そしてなぜ相互作用するのかを真に理解するには、社会的相互作用を引き起こす根底にある精神状態、つまりマルチエージェント相互作用における心の理論推論を推測する必要があります。
さらに、社会的交流は多くの場合、マルチモーダルです。私たちは人々の行動を見たり、会話を聞いたり、過去の行動を読んだりすることができます。
AI システムが現実世界の環境で人々と首尾よく安全に対話するには、人々の精神状態を理解するだけでなく、対話に関するマルチモーダル情報に基づいた互いの精神状態の推論も理解する必要があります。
このために、マルチモーダルなマルチエージェント理論の心のベンチマークである MuMA-ToM を導入します。
MuMA-ToM は、身体化されたマルチエージェント インタラクションにおける精神的推論を評価する、初のマルチモーダル心の理論ベンチマークです。
MuMA-ToM では、現実的な家庭環境における人々の多様な行動をビデオとテキストで説明します。
次に、文脈に基づいて、人々の目標、信念、他の人の目標についての信念について質問します。
私たちは MuMA-ToM を人体実験で検証し、人体ベースラインを提供しました。
また、新しいマルチモーダル、マルチエージェント ToM モデル、LIMP (言語モデルベースの逆マルチエージェント プランニング) も提案しました。
私たちの実験結果は、LIMP が、大規模なマルチモーダル モデル (GPT-4o、Gemini-1.5 Pro など) や最近のマルチモーダル ToM モデルである BIP-ALM などの最先端の手法よりも大幅に優れていることを示しています。

要約(オリジナル)

Understanding people’s social interactions in complex real-world scenarios often relies on intricate mental reasoning. To truly understand how and why people interact with one another, we must infer the underlying mental states that give rise to the social interactions, i.e., Theory of Mind reasoning in multi-agent interactions. Additionally, social interactions are often multi-modal — we can watch people’s actions, hear their conversations, and/or read about their past behaviors. For AI systems to successfully and safely interact with people in real-world environments, they also need to understand people’s mental states as well as their inferences about each other’s mental states based on multi-modal information about their interactions. For this, we introduce MuMA-ToM, a Multi-modal Multi-Agent Theory of Mind benchmark. MuMA-ToM is the first multi-modal Theory of Mind benchmark that evaluates mental reasoning in embodied multi-agent interactions. In MuMA-ToM, we provide video and text descriptions of people’s multi-modal behavior in realistic household environments. Based on the context, we then ask questions about people’s goals, beliefs, and beliefs about others’ goals. We validated MuMA-ToM in a human experiment and provided a human baseline. We also proposed a novel multi-modal, multi-agent ToM model, LIMP (Language model-based Inverse Multi-agent Planning). Our experimental results show that LIMP significantly outperforms state-of-the-art methods, including large multi-modal models (e.g., GPT-4o, Gemini-1.5 Pro) and a recent multi-modal ToM model, BIP-ALM.

arxiv情報

著者 Haojun Shi,Suyu Ye,Xinyu Fang,Chuanyang Jin,Layla Isik,Yen-Ling Kuo,Tianmin Shu
発行日 2024-08-22 17:41:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク