Multimodal Personality Recognition using Cross-Attention Transformer and Behaviour Encoding

要約

パーソナリティ コンピューティングと感情的コンピューティングは、多くの研究分野で最近関心を集めています。
タスクのデータセットには、通常、ビデオ、オーディオ、言語、生体信号などの複数のモダリティがあります。
この論文では、利用可能なすべてのデータを活用するタスクの柔軟なモデルを提案します。
このタスクには複雑な関係が含まれており、特にビデオ処理に大規模なモデルを使用することを避けるために、モデルへの変更を最小限に抑えてパフォーマンスを向上させるビヘイビア エンコーディングの使用を提案します。
トランスフォーマーを用いたクロスアテンションは近年流行しており、異なるモダリティの融合に利用されています。
長期的な関係が存在する可能性があるため、入力をチャンクに分割することは望ましくありません。したがって、提案されたモデルは入力全体を一緒に処理します。
私たちの実験は、上記の貢献のそれぞれの重要性を示しています

要約(オリジナル)

Personality computing and affective computing have gained recent interest in many research areas. The datasets for the task generally have multiple modalities like video, audio, language and bio-signals. In this paper, we propose a flexible model for the task which exploits all available data. The task involves complex relations and to avoid using a large model for video processing specifically, we propose the use of behaviour encoding which boosts performance with minimal change to the model. Cross-attention using transformers has become popular in recent times and is utilised for fusion of different modalities. Since long term relations may exist, breaking the input into chunks is not desirable, thus the proposed model processes the entire input together. Our experiments show the importance of each of the above contributions

arxiv情報

著者 Tanay Agrawal,Dhruv Agarwal,Michal Balazia,Neelabh Sinha,Francois Bremond
発行日 2023-01-12 15:01:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, 68T10, cs.AI, cs.CV, I.5 パーマリンク