Using Auxiliary Tasks In Multimodal Fusion Of Wav2vec 2.0 And BERT For Multimodal Emotion Recognition

要約

データの欠如とマルチモーダル融合の難しさは、マルチモーダル感情認識 (MER) にとって常に課題でした。
この論文では、上流ネットワークとして事前訓練されたモデルを使用し、音声モダリティにはwav2vec 2.0、テキストモダリティにはBERTを使用し、データの不足に対処するためにMERの下流タスクでそれらを微調整することを提案します。
マルチモーダル フュージョンの難しさのために、下流のフュージョン モジュールとして K 層のマルチヘッド アテンション メカニズムを使用します。
MER タスク自体から始めて、モダリティ間の不十分な融合を軽減し、感情関連の機能をキャプチャして調整するようにネットワークを導く 2 つの補助タスクを設計します。
以前の最先端のモデルと比較して、IEMOCAP データセットで 78.42% の加重精度 (WA) と 79.71% の非加重精度 (UA) という優れたパフォーマンスを達成しています。

要約(オリジナル)

The lack of data and the difficulty of multimodal fusion have always been challenges for multimodal emotion recognition (MER). In this paper, we propose to use pretrained models as upstream network, wav2vec 2.0 for audio modality and BERT for text modality, and finetune them in downstream task of MER to cope with the lack of data. For the difficulty of multimodal fusion, we use a K-layer multi-head attention mechanism as a downstream fusion module. Starting from the MER task itself, we design two auxiliary tasks to alleviate the insufficient fusion between modalities and guide the network to capture and align emotion-related features. Compared to the previous state-of-the-art models, we achieve a better performance by 78.42% Weighted Accuracy (WA) and 79.71% Unweighted Accuracy (UA) on the IEMOCAP dataset.

arxiv情報

著者 Dekai Sun,Yancheng He,Jiqing Han
発行日 2023-02-27 10:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク