要約
このプロジェクトは、CMU-Moseiデータセットを使用してマルチモーダル感情分析を実行し、テキスト、オーディオ、視覚モダリティを統合するための早期融合を備えたトランスベースのモデルを使用します。
各モダリティに対してBERTベースのエンコーダーを使用して、分類前に連結された埋め込みを抽出します。
このモデルは、97.87 \%7クラスの精度とテストセットに0.9682 F1スコアで強力なパフォーマンスを達成し、クロスモーダル相互作用をキャプチャする際の早期融合の有効性を示しています。
トレーニングは、Adamの最適化(LR = 1E-4)、ドロップアウト(0.3)、および早期停止を利用して、一般化と堅牢性を確保しました。
結果は、マルチモーダル感情のモデリングにおけるトランスアーキテクチャの優位性を強調しており、低MAE(0.1060)が正確な感情強度予測を示しています。
将来の作業は、融合戦略を比較するか、解釈可能性を高めることができます。
このアプローチは、感情分析のために言語、音響、および視覚的な手がかりを効果的に組み合わせることにより、マルチモーダル学習を利用します。
要約(オリジナル)
This project performs multimodal sentiment analysis using the CMU-MOSEI dataset, using transformer-based models with early fusion to integrate text, audio, and visual modalities. We employ BERT-based encoders for each modality, extracting embeddings that are concatenated before classification. The model achieves strong performance, with 97.87\% 7-class accuracy and a 0.9682 F1-score on the test set, demonstrating the effectiveness of early fusion in capturing cross-modal interactions. The training utilized Adam optimization (lr=1e-4), dropout (0.3), and early stopping to ensure generalization and robustness. Results highlight the superiority of transformer architectures in modeling multimodal sentiment, with a low MAE (0.1060) indicating precise sentiment intensity prediction. Future work may compare fusion strategies or enhance interpretability. This approach utilizes multimodal learning by effectively combining linguistic, acoustic, and visual cues for sentiment analysis.
arxiv情報
著者 | Jugal Gajjar,Kaustik Ranaware |
発行日 | 2025-05-09 15:10:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google