A Multimodal Fusion Network For Student Emotion Recognition Based on Transformer and Tensor Product

要約

この論文では、Transformer アーキテクチャとテンソル積融合戦略に基づく新しいマルチモーダル モデルを紹介します。このモデルは、BERT のテキスト ベクトルと ViT の画像ベクトルを組み合わせて、93.65% の精度で生徒の心理状態を分類します。
研究の目的は、さまざまなデータソースから学生のメンタルヘルス状態を正確に分析することです。
この論文では、マルチモーダル情報を統合するという課題を克服するための、初期、後期、中間融合を含むモーダル融合手法について説明します。
アブレーション研究では、さまざまなモデルと融合技術のパフォーマンスを比較し、提案されたモデルが精度と推論速度の点で CLIP や ViLBERT などの既存の手法よりも優れていることを示しています。
結論として、このモデルには感情認識において大きな利点がある一方で、他のデータ モダリティを組み込む可能性があるため、将来の研究の余地があることが示されています。

要約(オリジナル)

This paper introduces a new multi-modal model based on the Transformer architecture and tensor product fusion strategy, combining BERT’s text vectors and ViT’s image vectors to classify students’ psychological conditions, with an accuracy of 93.65%. The purpose of the study is to accurately analyze the mental health status of students from various data sources. This paper discusses modal fusion methods, including early, late and intermediate fusion, to overcome the challenges of integrating multi-modal information. Ablation studies compare the performance of different models and fusion techniques, showing that the proposed model outperforms existing methods such as CLIP and ViLBERT in terms of accuracy and inference speed. Conclusions indicate that while this model has significant advantages in emotion recognition, its potential to incorporate other data modalities provides areas for future research.

arxiv情報

著者 Ao Xiang,Zongqing Qi,Han Wang,Qin Yang,Danqing Ma
発行日 2024-10-23 14:21:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク