Modeling Multimodal Social Interactions: New Challenges and Baselines with Densely Aligned Representations

要約

社会的状況を効果的に解釈するには、言語的および非言語的合図の両方を含む社会的相互作用を理解することが不可欠です。
しかし、マルチモーダルな社会的合図に関するこれまでの研究のほとんどは、主に 1 人の行動に焦点を当てているか、複数の当事者がいる環境での発話と一致していない全体的な視覚的表現に依存しています。
その結果、複数の当事者間の相互作用の複雑なダイナミクスのモデル化には限界があります。
この論文では、複数の人々の間のきめ細かいダイナミクスをモデル化するための 3 つの新しい挑戦的なタスク (発話対象の識別、代名詞の共参照の解決、言及されたプレイヤーの予測) を紹介します。
私たちは、社会的推理ゲーム設定におけるこれらの新しい課題を厳選するために、広範なデータ注釈を提供しています。
さらに、視覚的特徴を対応する発話と同期させることにより、密に調整された言語と視覚の表現を活用する、新しいマルチモーダル ベースラインを提案します。
これにより、社会的推論に関連する言語的および非言語的な手がかりを同時に捕捉することが容易になります。
実験では、きめの細かい社会的相互作用をモデル化する際に、高密度に配置されたマルチモーダル表現を使用した提案されたアプローチの有効性が実証されています。
プロジェクトの Web サイト: https://sangmin-git.github.io/projects/MMSI。

要約(オリジナル)

Understanding social interactions involving both verbal and non-verbal cues is essential for effectively interpreting social situations. However, most prior works on multimodal social cues focus predominantly on single-person behaviors or rely on holistic visual representations that are not aligned to utterances in multi-party environments. Consequently, they are limited in modeling the intricate dynamics of multi-party interactions. In this paper, we introduce three new challenging tasks to model the fine-grained dynamics between multiple people: speaking target identification, pronoun coreference resolution, and mentioned player prediction. We contribute extensive data annotations to curate these new challenges in social deduction game settings. Furthermore, we propose a novel multimodal baseline that leverages densely aligned language-visual representations by synchronizing visual features with their corresponding utterances. This facilitates concurrently capturing verbal and non-verbal cues pertinent to social reasoning. Experiments demonstrate the effectiveness of the proposed approach with densely aligned multimodal representations in modeling fine-grained social interactions. Project website: https://sangmin-git.github.io/projects/MMSI.

arxiv情報

著者 Sangmin Lee,Bolin Lai,Fiona Ryan,Bikram Boote,James M. Rehg
発行日 2024-04-29 12:16:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク