Learning Noise-Robust Joint Representation for Multimodal Emotion Recognition under Incomplete Data Scenarios

要約

実際のシナリオにおけるマルチモーダル感情認識 (MER) は、さまざまなモダリティにわたる欠落データまたは不完全なデータの存在によって大きな課題を抱えています。
これらの課題を克服するために、研究者らはトレーニング段階で不完全な状態をシミュレートし、システム全体の堅牢性を高めることを目指してきました。
従来の方法では、これらの不完全性を近似するために、データを破棄したり、データ セグメントをゼロ ベクトルに置き換えたりすることがよくありました。
しかし、そのようなアプローチは現実世界の状況を正確に表しておらず、また、ノイズの多いデータ可用性の問題に適切に対処することもできません。
たとえば、ぼやけた画像を単純にゼロ ベクトルに置き換えることはできず、依然として情報は保持されます。
この問題に取り組み、より正確な MER システムを開発するために、ノイズの多いデータからロバストなマルチモーダル ジョイント表現を効果的に学習する、新しいノイズ耐性のある MER モデルを導入します。
このアプローチには 2 つの重要なコンポーネントが含まれています。1 つは、データ内のノイズの種類とレベルを調整して、現実的なさまざまな不完全な状況をエミュレートするノイズ スケジューラーです。
次に、変分オートエンコーダ (VAE) ベースのモジュールを使用して、ノイズの多い入力からこれらの堅牢なマルチモーダル ジョイント表現を再構築します。
特に、ノイズ スケジューラの導入により、既存の方法では不可能な、まったく新しいタイプの不完全なデータ条件の探索が可能になります。
ベンチマーク データセット IEMOCAP および CMU-MOSEI に対する広範な実験評価により、ノイズ スケジューラの有効性と、提案したモデルの優れたパフォーマンスが実証されました。

要約(オリジナル)

Multimodal emotion recognition (MER) in practical scenarios is significantly challenged by the presence of missing or incomplete data across different modalities. To overcome these challenges, researchers have aimed to simulate incomplete conditions during the training phase to enhance the system’s overall robustness. Traditional methods have often involved discarding data or substituting data segments with zero vectors to approximate these incompletenesses. However, such approaches neither accurately represent real-world conditions nor adequately address the issue of noisy data availability. For instance, a blurry image cannot be simply replaced with zero vectors, and still retain information. To tackle this issue and develop a more precise MER system, we introduce a novel noise-robust MER model that effectively learns robust multimodal joint representations from noisy data. This approach includes two pivotal components: firstly, a noise scheduler that adjusts the type and level of noise in the data to emulate various realistic incomplete situations. Secondly, a Variational AutoEncoder (VAE)-based module is employed to reconstruct these robust multimodal joint representations from the noisy inputs. Notably, the introduction of the noise scheduler enables the exploration of an entirely new type of incomplete data condition, which is impossible with existing methods. Extensive experimental evaluations on the benchmark datasets IEMOCAP and CMU-MOSEI demonstrate the effectiveness of the noise scheduler and the excellent performance of our proposed model.

arxiv情報

著者 Qi Fan,Haolin Zuo,Rui Liu,Zheng Lian,Guanglai Gao
発行日 2024-05-07 16:30:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク