要約
感情反応強度 (ERI) 推定は、マルチモーダル シナリオで重要なタスクであり、医療、安全運転、その他の分野で基本的な用途があります。
この論文では、デュアルブランチベースのマルチ出力回帰モデルである第5の感情行動分析インザワイルド(ABAW)のERI課題に対する解決策を提案します。
視覚的特徴をより適切に抽出するために空間的注意が使用され、Mel-Frequency Cepstral Coefficients テクノロジーが音響的特徴を抽出し、モダリティ ドロップアウトと呼ばれる方法がフュージョン マルチモーダル機能に追加されます。
私たちの方法は、公式の検証セットで優れた結果を達成しています。
要約(オリジナル)
Emotional Reaction Intensity(ERI) estimation is an important task in multimodal scenarios, and has fundamental applications in medicine, safe driving and other fields. In this paper, we propose a solution to the ERI challenge of the fifth Affective Behavior Analysis in-the-wild(ABAW), a dual-branch based multi-output regression model. The spatial attention is used to better extract visual features, and the Mel-Frequency Cepstral Coefficients technology extracts acoustic features, and a method named modality dropout is added to fusion multimodal features. Our method achieves excellent results on the official validation set.
arxiv情報
著者 | Jun Yu,Jichao Zhu,Wangyuan Zhu,Zhongpeng Cai,Guochen Xie,Renda Li,Gongpeng Zhao |
発行日 | 2023-03-16 10:31:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google