Explicit Modelling of Theory of Mind for Belief Prediction in Nonverbal Social Interactions

要約

私たちは、マルチモーダルな入力から人間の社会的相互作用中の信念とそのダイナミクスを予測するための心の理論 (ToM) ニューラル ネットワークである MToMnet を提案します。
ToM は人間の効果的な非言語コミュニケーションとコラボレーションの鍵ですが、信念モデリングの既存の方法には明示的な ToM モデリングが含まれていなかったり、通常 1 つまたは 2 つのモダリティに限定されていました。
MToMnet は、コンテキスト キュー (シーンのビデオとオブジェクトの位置) をエンコードし、それらを人固有のキュー (人間の視線とボディ ランゲージ) と統合して、各人ごとに個別の MindNet に作成します。
社会的認知と計算論的 ToM に関する先行研究に触発されて、我々は 3 つの異なる MToMnet バリアントを提案します。2 つは潜在表現の融合を含み、1 つは分類スコアの再ランキングを含みます。
私たちは 2 つの困難な現実世界のデータセットに対するアプローチを評価します。1 つは信念予測に焦点を当て、もう 1 つは信念ダイナミクス予測を調査します。
私たちの結果は、MToMnet が既存の方法を大幅に上回っていると同時に、必要なパラメータの数が大幅に少ないことを示しています。
総合すると、私たちの方法は、非言語的行動から人間の信念を確実に予測し、それによって人間とより効果的に協力できる人工知能システムに関する将来の研究に非常に有望な方向性を開きます。

要約(オリジナル)

We propose MToMnet – a Theory of Mind (ToM) neural network for predicting beliefs and their dynamics during human social interactions from multimodal input. ToM is key for effective nonverbal human communication and collaboration, yet, existing methods for belief modelling have not included explicit ToM modelling or have typically been limited to one or two modalities. MToMnet encodes contextual cues (scene videos and object locations) and integrates them with person-specific cues (human gaze and body language) in a separate MindNet for each person. Inspired by prior research on social cognition and computational ToM, we propose three different MToMnet variants: two involving fusion of latent representations and one involving re-ranking of classification scores. We evaluate our approach on two challenging real-world datasets, one focusing on belief prediction, while the other examining belief dynamics prediction. Our results demonstrate that MToMnet surpasses existing methods by a large margin while at the same time requiring a significantly smaller number of parameters. Taken together, our method opens up a highly promising direction for future work on artificial intelligent systems that can robustly predict human beliefs from their non-verbal behaviour and, as such, more effectively collaborate with humans.

arxiv情報

著者 Matteo Bortoletto,Constantin Ruhdorfer,Lei Shi,Andreas Bulling
発行日 2024-07-15 15:42:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク