要約
この研究では、複数のモダリティにわたる特徴の最適な選択と融合を調査し、これらをニューラル ネットワークで組み合わせて感情検出を向上させます。
私たちは、さまざまな融合方法を比較し、マルチモダリティ融合ネットワーク内での多重損失トレーニングの影響を調査し、サブネットのパフォーマンスに関連する有用な発見を特定します。
私たちの最良のモデルは、3 つのデータセット (CMU-MOSI、CMU-MOSEI、CH-SIMS) に対して最先端のパフォーマンスを達成し、ほとんどのメトリクスで他の手法を上回ります。
マルチモーダル機能のトレーニングにより単一モダリティのテストが向上し、データセット アノテーション スキーマに基づいた融合手法の設計によりモデルのパフォーマンスが向上することがわかりました。
これらの結果は、ニューラル ネットワークにおける感情検出を強化するための、最適化された特徴選択と融合アプローチに向けたロードマップを示唆しています。
要約(オリジナル)
In this work we investigate the optimal selection and fusion of features across multiple modalities and combine these in a neural network to improve emotion detection. We compare different fusion methods and examine the impact of multi-loss training within the multi-modality fusion network, identifying useful findings relating to subnet performance. Our best model achieves state-of-the-art performance for three datasets (CMU-MOSI, CMU-MOSEI and CH-SIMS), and outperforms the other methods in most metrics. We have found that training on multimodal features improves single modality testing and designing fusion methods based on dataset annotation schema enhances model performance. These results suggest a roadmap towards an optimized feature selection and fusion approach for enhancing emotion detection in neural networks.
arxiv情報
著者 | Zehui Wu,Ziwei Gong,Jaywon Koo,Julia Hirschberg |
発行日 | 2023-08-01 03:54:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google