3M-TRANSFORMER: A Multi-Stage Multi-Stream Multimodal Transformer for Embodied Turn-Taking Prediction

要約

多者間の会話における順番の予測は、人間とコンピューター/ロボットの対話において多くの実用的な用途があります。
しかし、人間のコミュニケーションは複雑なので、それは困難な作業です。
最近の進歩により、同期の複数視点の自己中心的データは、非同期の単一視点の転写と比較して順番予測を大幅に改善できることが示されています。
この研究に基づいて、私たちは、具体化された同期されたマルチパースペクティブ データの交代を予測するための新しいマルチモーダル トランスフォーマー ベースのアーキテクチャを提案します。
最近導入された EgoCom データセットに関する実験結果では、既存のベースラインや代替のトランスベースのアプローチと比較して、平均で最大 14.01% の大幅なパフォーマンスの向上が示されています。
ソース コードと 3M-Transformer の事前トレーニング済みモデルは、承認され次第利用可能になります。

要約(オリジナル)

Predicting turn-taking in multiparty conversations has many practical applications in human-computer/robot interaction. However, the complexity of human communication makes it a challenging task. Recent advances have shown that synchronous multi-perspective egocentric data can significantly improve turn-taking prediction compared to asynchronous, single-perspective transcriptions. Building on this research, we propose a new multimodal transformer-based architecture for predicting turn-taking in embodied, synchronized multi-perspective data. Our experimental results on the recently introduced EgoCom dataset show a substantial performance improvement of up to 14.01% on average compared to existing baselines and alternative transformer-based approaches. The source code, and the pre-trained models of our 3M-Transformer will be available upon acceptance.

arxiv情報

著者 Mehdi Fatan,Emanuele Mincato,Dimitra Pintzou,Mariella Dimiccoli
発行日 2023-12-21 18:19:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク