要約
Multiple Appropriate Facial Reaction Generation (MAFRG) タスクの目的は、会話パートナー (つまり話者) のマルチモーダルな行動データに基づいて、状況に応じて適切で多様なリスナーの顔の行動反応を生成することです。
現在の方法論は通常、音声および顔のモダリティ データが継続的に利用可能であることを前提としており、これらのデータが断続的に利用できなくなる可能性がある現実世界のシナリオを無視しており、その結果、モデルの失敗が発生することがよくあります。
さらに、高度な深層学習モデルを利用して話者のマルチモーダルな入力から情報を抽出しているにもかかわらず、これらのモデルは、人間の聞き手から適切な顔の反応を引き出すために不可欠である話者の感情的なコンテキストを適切に活用できていません。
これらの制限に対処するために、私たちは感情認識モダリティ補償 (EMC) フレームワークを提案します。
この多用途ソリューションは既存のモデルにシームレスに統合できるため、モダリティが欠如しているシナリオでのパフォーマンスと堅牢性を大幅に向上させながら、その利点を維持できます。
当社のフレームワークは、モダリティ データの欠落に直面した場合でも、補償モダリティ アライメント (CMA) モジュールを通じて回復力を確保します。
また、エンコードおよびデコードのプロセス全体を通じて話者の感情情報を組み込む感情認識アテンション (EA) モジュールを介して、より適切な感情認識反応を生成します。
実験結果は、私たちのフレームワークが元のモデル構造と比較して、適切性メトリック FRCorr を平均 57.2\% 改善することを示しています。
音声モダリティ データが欠落しているシナリオでは、適切な生成のパフォーマンスは向上を示し、顔データが欠落している場合は最小限の低下のみが示されます。
要約(オリジナル)
The objective of the Multiple Appropriate Facial Reaction Generation (MAFRG) task is to produce contextually appropriate and diverse listener facial behavioural responses based on the multimodal behavioural data of the conversational partner (i.e., the speaker). Current methodologies typically assume continuous availability of speech and facial modality data, neglecting real-world scenarios where these data may be intermittently unavailable, which often results in model failures. Furthermore, despite utilising advanced deep learning models to extract information from the speaker’s multimodal inputs, these models fail to adequately leverage the speaker’s emotional context, which is vital for eliciting appropriate facial reactions from human listeners. To address these limitations, we propose an Emotion-aware Modality Compensatory (EMC) framework. This versatile solution can be seamlessly integrated into existing models, thereby preserving their advantages while significantly enhancing performance and robustness in scenarios with missing modalities. Our framework ensures resilience when faced with missing modality data through the Compensatory Modality Alignment (CMA) module. It also generates more appropriate emotion-aware reactions via the Emotion-aware Attention (EA) module, which incorporates the speaker’s emotional information throughout the entire encoding and decoding process. Experimental results demonstrate that our framework improves the appropriateness metric FRCorr by an average of 57.2\% compared to the original model structure. In scenarios where speech modality data is missing, the performance of appropriate generation shows an improvement, and when facial data is missing, it only exhibits minimal degradation.
arxiv情報
著者 | Guanyu Hu,Jie Wei,Siyang Song,Dimitrios Kollias,Xinyu Yang,Zhonglin Sun,Odysseus Kaloidas |
発行日 | 2024-07-22 17:00:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google