Exploiting modality-invariant feature for robust multimodal emotion recognition with missing modalities

要約

マルチモーダル感情認識は、モダリティ全体で補完的な情報を活用してパフォーマンスを向上させます。
ただし、すべてのモダリティのデータが実際に常に存在することを保証することはできません。
モダリティ間で欠損データを予測する研究では、異種モダリティ間の固有の違い、つまりモダリティ ギャップが課題となります。
これに対処するために、2 つの新しいメカニズムを含むミッシング モダリティ想像ネットワーク (IF-MMIN) に不変機能を使用することを提案します。
モダリティシナリオ;
2) 失われたモダリティ予測中のモダリティ ギャップを緩和するための不変の特徴ベースの想像モジュール (IF-IM)。これにより、マルチモーダル ジョイント表現のロバスト性が向上します。
ベンチマーク データセット IEMOCAP での包括的な実験は、提案されたモデルがすべてのベースラインよりも優れており、不確実なミッシング モダリティ条件下で全体的な感情認識パフォーマンスを不変に改善することを示しています。
https://github.com/ZhuoYulang/IF-MMIN でコードをリリースします。

要約(オリジナル)

Multimodal emotion recognition leverages complementary information across modalities to gain performance. However, we cannot guarantee that the data of all modalities are always present in practice. In the studies to predict the missing data across modalities, the inherent difference between heterogeneous modalities, namely the modality gap, presents a challenge. To address this, we propose to use invariant features for a missing modality imagination network (IF-MMIN) which includes two novel mechanisms: 1) an invariant feature learning strategy that is based on the central moment discrepancy (CMD) distance under the full-modality scenario; 2) an invariant feature based imagination module (IF-IM) to alleviate the modality gap during the missing modalities prediction, thus improving the robustness of multimodal joint representation. Comprehensive experiments on the benchmark dataset IEMOCAP demonstrate that the proposed model outperforms all baselines and invariantly improves the overall emotion recognition performance under uncertain missing-modality conditions. We release the code at: https://github.com/ZhuoYulang/IF-MMIN.

arxiv情報

著者 Haolin Zuo,Rui Liu,Jinming Zhao,Guanglai Gao,Haizhou Li
発行日 2022-10-27 12:16:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク