Bridging the Emotional Semantic Gap via Multimodal Relevance Estimation

要約

人間は、表情、音声、自然言語など、豊かな感情表現手段を持っている。しかし、個人の多様性や複雑性により、様々なモダリティで表現される感情は意味的に無関係である可能性がある。そのため、異なるモダリティの情報を直接融合することは、意味的に無関係なモダリティからのノイズをモデルに取り込んでしまう可能性がある。この問題に対処するため、我々はマルチモーダルな感情表現において、モダリティ間の関連性を捉えるためのマルチモーダル関連性推定ネットワークを提案する。具体的には、各モダリティの意味的関連性の重みを反映させるために、注意メカニズムを利用する。さらに、各モダリティの意味性を弱く監視するために、関連意味推定損失を提案する。さらに、特徴空間における異なるモダリティ間のカテゴリレベルのモダリティ関連意味の類似度を最適化するために、対比学習を利用し、異種モダリティ間の意味的ギャップを埋めることを目的とする。実際の対話シナリオにおける感情状態をより適切に反映し、意味関連性分析を行うために、我々はSDMEというシングルラベルの離散マルチモーダル感情データセットを収集し、研究者が大きなカテゴリバイアスを持つマルチモーダル意味関連性研究を行うことを可能にする。連続・離散感情データセットに対する実験から、我々のモデルが、特にモーダルセマンティクスにおける大きな偏差に対して、関連するセマンティクスを効果的に捕らえることができることが示された。コードとSDMEデータセットは一般に公開される予定である。

要約(オリジナル)

Human beings have rich ways of emotional expressions, including facial action, voice, and natural languages. Due to the diversity and complexity of different individuals, the emotions expressed by various modalities may be semantically irrelevant. Directly fusing information from different modalities may inevitably make the model subject to the noise from semantically irrelevant modalities. To tackle this problem, we propose a multimodal relevance estimation network to capture the relevant semantics among modalities in multimodal emotions. Specifically, we take advantage of an attention mechanism to reflect the semantic relevance weights of each modality. Moreover, we propose a relevant semantic estimation loss to weakly supervise the semantics of each modality. Furthermore, we make use of contrastive learning to optimize the similarity of category-level modality-relevant semantics across different modalities in feature space, thereby bridging the semantic gap between heterogeneous modalities. In order to better reflect the emotional state in the real interactive scenarios and perform the semantic relevance analysis, we collect a single-label discrete multimodal emotion dataset named SDME, which enables researchers to conduct multimodal semantic relevance research with large category bias. Experiments on continuous and discrete emotion datasets show that our model can effectively capture the relevant semantics, especially for the large deviations in modal semantics. The code and SDME dataset will be publicly available.

arxiv情報

著者 Chuan Zhang,Daoxin Zhang,Ruixiu Zhang,Jiawei Li,Jianke Zhu
発行日 2023-02-03 05:27:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク