M3PT: A Transformer for Multimodal, Multi-Party Social Signal Prediction with Person-aware Blockwise Attention

要約

多人数での会話における社会的信号を理解することは、人間とロボットの相互作用や人工社会知能にとって重要である。社会的信号には、体のポーズ、頭のポーズ、発話、そして食事の際に食べ物を手に入れたり一口食べたりするようなコンテキストに特化した行動が含まれる。多人数インタラクションにおける過去の研究は、社会的信号を予測するためのタスクに特化したモデルを構築する傾向がある。本研究では、マルチパーティセッティングにおけるマルチモーダルな社会的信号を単一のモデルで予測するという課題に取り組む。複数の参加者とその時間的相互作用にまたがる複数の社会的手がかりを同時に処理するために、モダリティと時間的ブロックワイズ注意マスキングを持つ因果変換器アーキテクチャであるM3PTを導入する。M3PTをHuman-Human Commensality Dataset (HHCD)で学習・評価し、複数のモダリティを使用することで、噛むタイミングと発話状態の予測が改善されることを実証する。ソースコード: https://github.com/AbrarAnwar/masked-social-signals/.

要約(オリジナル)

Understanding social signals in multi-party conversations is important for human-robot interaction and artificial social intelligence. Social signals include body pose, head pose, speech, and context-specific activities like acquiring and taking bites of food when dining. Past work in multi-party interaction tends to build task-specific models for predicting social signals. In this work, we address the challenge of predicting multimodal social signals in multi-party settings in a single model. We introduce M3PT, a causal transformer architecture with modality and temporal blockwise attention masking to simultaneously process multiple social cues across multiple participants and their temporal interactions. We train and evaluate M3PT on the Human-Human Commensality Dataset (HHCD), and demonstrate that using multiple modalities improves bite timing and speaking status prediction. Source code: https://github.com/AbrarAnwar/masked-social-signals/.

arxiv情報

著者 Yiming Tang,Abrar Anwar,Jesse Thomason
発行日 2025-02-03 03:14:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク