要約
この論文では、複数のモダリティにわたる特徴エンコーダーの最適な選択と融合を調査し、これらを 1 つのニューラル ネットワークに組み合わせてセンチメント検出を向上させます。
私たちは、さまざまな融合方法を比較し、マルチモダリティ融合ネットワーク内での多重損失トレーニングの影響を調査し、サブネットのパフォーマンスに関連する驚くほど重要な発見を特定しました。
また、コンテキストを統合するとモデルのパフォーマンスが大幅に向上することもわかりました。
当社の最良のモデルは、3 つのデータセット (CMU-MOSI、CMU-MOSEI、CH-SIMS) に対して最先端のパフォーマンスを実現します。
これらの結果は、ニューラル ネットワークにおける感情検出を強化するための、最適化された特徴選択と融合アプローチに向けたロードマップを示唆しています。
要約(オリジナル)
This paper investigates the optimal selection and fusion of feature encoders across multiple modalities and combines these in one neural network to improve sentiment detection. We compare different fusion methods and examine the impact of multi-loss training within the multi-modality fusion network, identifying surprisingly important findings relating to subnet performance. We have also found that integrating context significantly enhances model performance. Our best model achieves state-of-the-art performance for three datasets (CMU-MOSI, CMU-MOSEI and CH-SIMS). These results suggest a roadmap toward an optimized feature selection and fusion approach for enhancing sentiment detection in neural networks.
arxiv情報
著者 | Zehui Wu,Ziwei Gong,Jaywon Koo,Julia Hirschberg |
発行日 | 2024-05-09 15:01:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google