要約
会話中のマルチモーダル感情認識 (MERC) は、最近、研究で大きな注目を集めています。
既存の MERC 手法はいくつかの課題に直面しています。(1) 直接的なモーダル間の手がかりを完全に活用できず、クロスモーダル モデリングが不十分になる可能性があります。
(2) 各ネットワーク層で同じモダリティと異なるモダリティから情報を同時に抽出するため、マルチソース データの融合により競合が発生する可能性があります。
(3) 動的な感情の変化を検出するのに必要な機敏性に欠けており、おそらく突然の感情の変化を伴う発話の分類が不正確になる可能性があります。
これらの問題に対処するために、マルチモーダルな対話における複雑な感情的手がかりを追跡するための GraphSmile という新しいアプローチが提案されています。
GraphSmile は、GSF モジュールと SDP モジュールという 2 つの主要なコンポーネントで構成されています。
GSF は、グラフ構造を巧みに活用して、モーダル間およびモーダル内の感情的依存関係を層ごとに交互に同化し、融合の競合を効果的に回避しながら、クロスモーダルの手がかりを適切に捕捉します。
SDP は、発話間の感情のダイナミクスを明示的に描写する補助タスクであり、感情の不一致を区別するモデルの能力を促進します。
さらに、GraphSmile は会話におけるマルチモーダル感情分析 (MSAC) に簡単に適用され、MERC および MSAC タスクを実行できる統合されたマルチモーダル感情モデルを構築します。
複数のベンチマークの実証結果は、GraphSmile が複雑な感情的および感傷的なパターンを処理でき、ベースライン モデルを大幅に上回るパフォーマンスを示していることを示しています。
要約(オリジナル)
Multimodal emotion recognition in conversation (MERC) has garnered substantial research attention recently. Existing MERC methods face several challenges: (1) they fail to fully harness direct inter-modal cues, possibly leading to less-than-thorough cross-modal modeling; (2) they concurrently extract information from the same and different modalities at each network layer, potentially triggering conflicts from the fusion of multi-source data; (3) they lack the agility required to detect dynamic sentimental changes, perhaps resulting in inaccurate classification of utterances with abrupt sentiment shifts. To address these issues, a novel approach named GraphSmile is proposed for tracking intricate emotional cues in multimodal dialogues. GraphSmile comprises two key components, i.e., GSF and SDP modules. GSF ingeniously leverages graph structures to alternately assimilate inter-modal and intra-modal emotional dependencies layer by layer, adequately capturing cross-modal cues while effectively circumventing fusion conflicts. SDP is an auxiliary task to explicitly delineate the sentiment dynamics between utterances, promoting the model’s ability to distinguish sentimental discrepancies. Furthermore, GraphSmile is effortlessly applied to multimodal sentiment analysis in conversation (MSAC), forging a unified multimodal affective model capable of executing MERC and MSAC tasks. Empirical results on multiple benchmarks demonstrate that GraphSmile can handle complex emotional and sentimental patterns, significantly outperforming baseline models.
arxiv情報
著者 | Jiang Li,Xiaoping Wang,Zhigang Zeng |
発行日 | 2024-07-31 11:47:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google